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《商务与经济统计》是一本介绍统计学及其应用的教科书，是专门为那些在大学里学习经济 
学和工商管理的学生们编写的。本教材注重实用，并不需要很深的数学功底，只要有中学代数知 
识即可。 

数据分析和统计方法的应用是本书内容组织和论述中的组成部分。每种分析技术的讨论和扩 
展都是以应用的方式表述，借 助统计 结果能加深对问题和答案的理解。 

虽然本书是面向应用的，但我们还是要接触到一些稍微深点儿的方法，需要使用在统计领域 
里常用的一些符号。然而，学生们将会发现本教材为学习较高深的统计知识作了很好的准备，并 
将精选的一些参考书目作为附录列出以供进一步学习之用。 


一、 第8版中的改进 

我们为前几版《商务与经济统计》能被读者接受和引起积极反响而由衷地感到高兴。相应 
地，在本书的修订中，我们仍然保持了原有的写作风格和可读性，现将新版中一些重要的改进列 
举如下。 

1. 内容的改写 

下面有选择地列出新版中经改写的内容。 


• 对数据测度水平的论述（第1章） 

• 有更多图表式描述性统计的内容（第2章） 

• 用 Excel 软件进行随机抽样的方法（第7章） 

• 对边际误差术语和当应用 z 分布和 t 分布进行区间估计时的附加信息作了初步的讨论 

• 更加强调计算和解释 p - 值（第 9— 12章） 

• 简化了回归计算公式，淡化概念程式，使其更加直观易懂（第14章） 

• 修订了包含在 CPI 和 DJIA 中的指标数（第17章） 

2 . 基于实际数据的新的例题和练习 


我们增添了近200个基于实际数据、源于最新参考文献和统计信息的新的例题和练习。利用 
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《华尔街杂志》、《今日美国》、《财富》、 Samm 、 和许多网站及其他一些信息源，结合我们的动 
态研究来扩展统计概念，并通过适当的练习来体会统计在经济学和商务中的多方面应用。我们相 
信，直接利用实际数据的做法能帮助更多的学生提高对所学内容的兴趣，既能够掌握统计方法又 
能够掌握它的应用。本教材第8版含有近350个基于实际数据的例题和练习。 

3. 新的案例 

这一版我们增加了 4个案例研究，使本教材中的案例总数增至26个。新的案例基于被引用的 
数据集，出现在区间估计和回归分析两章中。这些案例研究为学生们提供了分析一些较大的数据 
集并在分析结果的基础上准备管理报告的训练机会。 

4. 新的统计实例 

每一章的开篇都引用一个统计实例，作为本章所要讲的统计方法的应用举例。这些实例由诸 
如宝洁、 Mead、Dollar General , 高露洁一棕榄、宝丽来、孟山都等公司里的实际统计人员提供。 
这一版又收入了两个新的统计 实例 ： Small Fry Design (第 3 章）和花旗集团（第5章）。 

5. Minitab 和 Excel 附录 

每一章后面基本上都有 Minitab 和 Excel 电子数据表附录。这些附录有利于学生们循序渐进地 
利用 Minitab 和 Excel 电子表格软件演练每章所讲的统计分析方法。所有的附录都按最新版本的 
Minitab 和 Excel 格式编写。目前这一版描述性统计（第2章）中的 Excel 附录包含了变幻莫测的 
函数、图表和关键报表的应用。这一做法能培养学生们运用 Excel 设制图表和绘制交互表格的能 
力。在描述统计、抽样、区间估计、假设检验和独立性检验等章后面共有10个新的或修改过的表 
格附录。 


二、教材特色 

我们沿用了前几版中的许多做法，其中一些重要特征如下。 

1. 方法练习和应用练习 

每节结束时的练习被分成方法和应用两 部分： 方法练习要求学生们利用公式做一些必要的计 
算； 应用练习旨在使学生能在实际场合中运用所学的知识。因此，学生们应该首先掌握计算的核 
心和重点，然后再来体会统计应用和解释中的精妙之处。 



2. 自测题 


本书设置了一定量的自测题，这些练习题的全部解答作为附录 E 放在本书最后。读者可通过 
、做自测题并直接与解答对比检查，估计自己对每章所学内容的理解程度。 

3. 评注 

在许多章节后面，我们都给出了一些评注（注解和评论），以加深学生们对统计方法及其应 
用的理解。注解和评论包括统计方法应用时的一些注意事项和限制、应用范围的扩展、相关技术 
的简述等内容。 

4. 与教材相应的数据集 

本教材附有一张包容100多个数据集的 CD 光盘。数据集可用于 Mintab 和 Excel 两种格式。 
教材中对 CD 光盘中所有的数据集都加注了标识符，所有案例研究的数据集以及较大的练习的数 
据集都包含于 CD 光盘中。 
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戴维 • R • 安德森 戴维 • R _安德森是辛辛那提大学工商管理学院的数量分析教授。他出生 
于美国北达科他州的 Grand Forks ， 在普度大学获得学士、硕士和博士学位。安德森教授担任过数 
量分析和运筹管理系主任和工商管理学院的院长助理，还曾任第一届院务委员会的合作协调人。 

在辛辛那提大学，安德森教授为工商管理专业的学生们讲授统计引论以及研究生水平的回归 
分析、多变量分析和管理科学等课程，也曾给华盛顿大学劳动系讲授过统计课程。他获得过优秀 
教学奖和先进工作者等荣誉奖励。 

安德森教授已经合作编写出版了9本统计、管理科学、线性规划、生产和运营管理等方面的 
教材。他是抽样和统计方法领域内非常活跃的咨询专家。 

丹尼斯 • J • 斯威尼 丹尼斯 • J • 斯威尼是辛辛那提大学数量分析教授和生产力进步研究中 
心主任。他出生于美国衣阿华州的 Des Moines , 从德雷克大学获得工商管理学士学位，从印地安 
纳大学获得工商管理硕士和博士学位，并任该校的国防教育法学会会员。1978—1979年，斯威尼 
教授在宝洁公司的管理科学小组 工作； 1981—1982年在杜克大学做访问 教授； 还担任过辛辛那提 
大学的数量分析系主任和工商管理学院的院长助理。 

〆 

斯威尼教授已经发表了管理科学和统计领域的30多篇论文和专题研究报告，得到过由美国国 
家科学基金、 IBM 、 美国联邦储备局、宝洁公司、 Kroger 和辛辛那提电气公司等方面提供的研究 
资助，在《管理科学 》 （Management Science ) 、 《运筹学研究 》 （ Operations Research ) 、 《数 学规 
划 》 （Mathematical / Vogramming ) 和《决策科学 》 （Decision Sciences ) 等杂志上发表多篇论文。 

斯威尼教授已经合作编写出版了9本统计、管理科学、线性规划、生产和运营管理等方面的 
教材。 


托马斯 • A • 威廉姆斯 托马斯 • A • 威廉姆斯是罗切斯特技术研究院 （ RIT ) 工商学院的管 
理科学教授。他出生于美国纽约州的 Elmira ，在 Clarkson 大学获得学士学位，然后到 Rensselaer 综 
合技术研究院做研究工作，并在那里获得硕士和博士学位。 

在加盟 RIT 工商学院之前，威廉姆斯教授在辛辛那提大学的工商管理学院任教7年，并在那 
里进修了信息系统的研究生课程，同时还任协调人。在 RIT ， 他是管理科学系的第一任系主任， 
他讲授管理科学和统计类课程，也讲授回归分析和决策分析的研究生课程。 

威廉姆斯教授在管理科学、统计、生产和运营管理以及数学等专业领域合作出版了 10本教 
材，并对将数据分析运用到扩展大规模回归模型的方案排序问题做了专门研究。《财富》500强 
中的许多企业都请威廉姆斯教授做过咨询。 




I 


■第 1 章数据和统计 /I 

■第2章描述性 统计： 表格法和图形法/25 

■第3章描述性 统计： 数值方法 /81 

■第4章概率论简述/147 

■第5章离散概率分布/191 

■第6章连续概率分布/231 

■第7章抽样和抽样分布/263 

■第8章区间估计/309 

■第9章假设检验/353 

■第10章两个总体均值和比例的统计推断/415 

■第11章关于总体方差的推断/457 

■第12章拟合度检验和独立性检验/485 

■第13章方差分析与试验设计/515 

■第14章简单线性回归/577 

■第15章多元回归 /657 

■第16章回归 分析： 建立模型/715 

■第17章指数/773 

■第18章预测/797 

■第19章非参数方法/849 

■第20章质量管理统计方法/889 

■第21章抽样调查/921 

■附录 A 参考文献/960 

■附录 B 表格/962 

■附录 C 求和符号/990 

■附录 D 偶数习题的答案/992 

■附录 E 自测题解答/1016 

■译后记 /1056 












商务与经济统计 



第1章数据和统计 /I 

统计 实例： 商业周刊 /2 

1.1 在商务和经济中的应用/3 

• 会计•财务 • 营销 • 生产 • 经济 

1.2 数据/5 

• 元素、变量和观测值 • 度量尺度 • 定性 
和定量数据•截面数据和时间序列数据 

1.3 数据来源/8 

• 现存数据源 • 统计研究 • 数据采集误差 

1.4 描述性统计/13 

1.5 统计推断/14 
•小结•术语释义•练习 

第 2 章描述性 统计： 表格法和图形法 /25 
统计 实例： 高露洁一棕揽 公司 /26 
2. 1 汇总定性数据/27 

•频数分布•相对频数和百分比频数分布 
•柱状图和饼形图•练习 

2.2 汇总定量数据/34 

•频数分布•相对频数和百分比频数分布 
•点位图•直方图 • 累积分布 • 累积曲线 
•练习、 

2.3 探索性数据 分析： 茎叶显示/44 
•练习 

2.4 交叉分组列表和散点图 /49 

•交叉分组列表•散点图•练习•小结•术 
语释义 • 重要公式 • 补充练习 
案例研究 CONSOLIDATED 食品公司 /65 
附录 2.1 在表格和图形方法中应用 Minitab 软 


件 /66 

附录 2. 2 在表格和图形方法中应用 Excel 软 
件 /69 

第 3 章描述性 统计： 数值方法 /81 
统计 实例： SMALL FRY DESIGN 公司 /82 
3. 1 位置的度量 /83 

•均值•中位数•众数•百分位数•四分位 
数•练习 

3.2 变异程度的度量/93 

•极差•四分位点内距•方差•标准差•变 
异系数•练习 

3.3 相对位置的度量和异常值的检测 /100 

• z - 分数 • 切比雪夫定理 • 经验法则•异 
常值检测•练习 

3.4 探索性数据分析 /107 
•五数概括法•箱形图•练习 

3.5 两变量间关系的度量 /112 

•协方差•协方差的解释•相关系数•相 
关系数的解释•练习 

3.6 加权平均值和使用分组数据 /121 

• 加权平均值 • 分组数据•练习•小结•术 
语释义 • 重要公式 • 补充练习 
案例研究1 CONSOLIDATED 食品公司 /137 

案例研究2 国家健康护理协会 /138 
案例研究3 亚太地区的商学院 /139 
附录 3. 1利用 Minitab 计算描述性统计量 /141 
附录 3. 2利用 Excel 计算描述性统计量 /144 




目 录3 


第 4 章概率论简述 147 
统计 实例： MORTON 国际公司 /148 

4.1 试验、计数法则和概率指派 /149 
•计数法则、组合和排列•概率指派•肯 
塔基电力公司项目的概率•练习 

4.2 事件和它们的概率 /159 
•练习 

4.3 概率的一些基本关系 /163 
•事件的补•加法法则•练习 

4.4 条件概率 /169 

• 独立事件 • 乘法法则•练习 

4.5 贝叶斯定理 /176 

•表格方法•练习•小结•术语释义•重 
要公式•补充练习 

案例研究 HAMILTON 县的法官 /188 

第 5 章离散概率分布 /191 
统计 实例： 花旗银行 /192 

5.1 随机变量 /193 

• 离散随机变量•连续随机变量•练习 

5.2 离散概率分布 /195 
•练习 

5.3 数学期望和方差 /201 
•数学期望•方差•练习 

5.4 二项概率分布 /206 

• 二项试验•马丁服装商店问题 • 使用二 
项概率表•二项概率分布的数学期望和 
方差•练习 

5.5 泊松概率分布 /217 

• 一个涉及时间间隔的例子•一个涉及长 
度或距离间隔的例子•练习 

5.6 超几何概率分布 /221 

•练习•小结 • 术语释义 • 重要公式•补 
充练习 

附录 5. 1利用 Minitab 计算离散随机概率/228 
附录 5. 2利用 Excel 计算离散概率分布/229 


第 6 章连续概率分布 /231 
统计 实例： 宝洁公司 /232 
6. 1 均匀概率分布 /233 

• 作为概率度量的面积•练习 

6.2 正态概率分布 /238 

• 正态曲线•标准正态概率分布•计算任 
意正态概率分布的概率 • Grear 轮胎公司 
问题•练习 

6.3 指数概率分布/252 

• 计算指数分布的概率 • 泊松分布与指数 
分布的关系•练习•小结•术语释义•重 
要公式 • 补充练习 

附录 6. 1 利用 Minitab 计算连续概率分布 

/259 

附录 6. 2利用 Excel 计算连续概率分布/260 

第 7 章抽样和抽样分布 /263 
统计 实例： MEAD 公司 /264 

7.1 Electronics Associates 公司的抽样问题 
/265 

7.2 简单随机抽样/266 

•从有限总体中抽样•从无限总体中抽样 
•练习 

7.3 点估计/272 
•练习 

7.4 抽样分布介绍/275 

7.5 5的抽样分布/279 

•无的数学期望•元的标准差 • 中心极限定 
理 * EAI 抽样问题中$的抽样分布抽样 
分布的实际值抽样分布和样本容量 
之间的关系•练习 
7.6 戶的抽样分布/289 

• p 的数学期望•戶的标准差•戶抽样分布 
的形式•戶抽样分布的实际值•练习 
7.7 点估计量的性质/294 
• 无偏性•有效性 • 一致性 
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7.8 其他抽样方法/297 

•分层随机抽样•整群抽样 • 系统抽样 
• 方便抽样 • 判断抽样•小结 • 术语释义 
• 重要公式 • 补充练习 
附录 7.1 5的数学期望与标准差/304 

附录 7. 2 利用 Minitab 进行随机抽样/306 
附录 7. 3 利用 Excel 进行随机抽样/307 

第8章区间估计/309 
统计 实例： DOLLAR GENERAL 公司 /310 
8.1 总体均值的区间估计 :大样 本情况 /311 
• CJW 估计问题•抽样误差•假定 o •已 
知的大样本情况•用 S 估计 CT 的大样本 
情况•练习 

8.2 总体均值的区间 估计： 小样本情况/320 
•假定 <7已知的小样本情况•用 S 估计 
a 的小样本情况•总体分布的作用•练习 

8.3 确定样本容量/329 
•练习 

8.4 总体比例的区间估计/332 

•确定样本容量•练习•小结•术语释义 
• 重要公式 • 补充练习 
案例研究1 Bock 投资服务公司/343 

案例研究2 GULF 房地产公司 /345 

案例研究3 大都会研究公司 /347 
附录 8. 1 用 Minitab 求总体均值的区间估计 
/347 

附录 8. 2 用 Excel 进行总体均值的区间估计 
/349 

第9章假设检验/353 
统计 实例： HARRIS 公司 /354 
9.1 原假设和备择假设的建立/355 

•检验研究中的假设•检验声明的有效性 
• 决策中的假设检验•对原假设和备择 
假设形式的总结•练习 


9.2 第一类错误和第二类错误 /358 
•练习 

9.3 总体均值的单侧 检验： 大样本/360 

• 检验统计量应用 • p - 值的应用•总体 
均值的单侧检验步驟总结 • 假设检验步骤 
•练习 

9.4 总体均值的双侧 检验： 大样本 /371 
•双侧检验的 p - 值•总体均值的双侧检 
验步骤总结•区间估计与假设检验的关系 
•练习 

9.5 总体均值的 检验： 小样本/379 

• p — 值和 f 分布 • 双侧假设检验•练习 

9.6 总体比例的检验/385 
•练习 

9.7 假设检验和决策支持/392 

9.8 计算第二类错误的概率/393 
•练习 

9.9 确定总体均值假设检验的样本容量/398 
•练习•小结 • 术语释义 • 重要公式•补 
充练习 

案例研究1 Quality Associates 有限公司/407 
案例研究2 失业研究/408 
附录 9. 1 用 Minitab 进行假设检验/409 
附录 9. 2 用 Excel 进行假设检验 /411 

第10章两个总体均值和比例的统计推断 
/415 
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10.1 两个总体均值之差的 估计： 独立样本 
/417 
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计：大样本情形，叫 - 叫的区间估计： 
小样本情形•练习 

10.2 两个总体均值之差的假设检 验:独 立样本 
/426 

• 大样本情形•小样本情形•练习 
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10. 3 两个总体均值之差的统计推 断:匹 配样本 

/435 

•练习 

10.4 两个总体比例之差的统计推断 /441 
• p \ ~ p 2 的抽样分布•灼_户2的区间估计 
•失于 Pi — P 2 的 假设检验•练习•小结 
• 术语释义 • 重要公式 • 补充练习 
案例研究 Par 公司 /453 
附录 10. 1 用 Minitab 进行两个总体均值的假 

设检验 /453 

附录 10. 2 用 Excel 进行两个总体均值的假设 

检验 /455 

第 11 章关于总体方差的推断 /457 
统计 实例： 美国会计总署 /458 

11. 1 关于一个总体方差的统计推断 /459 

• 沪的区间估计 • 假设检验•练习 

11.2 两个总体方差的统计推断 /469 
•练习•小结•重要公式•补充练习 

案例研究空军培训 /479 

附录 11. 1 用 Minitab 计算总体方差 /480 

附录 11.2 用 Excel 计算总体方差 /481 

第 12 章拟合度检验和独立性检验 /485 
统计 实例 ： UNITED WAY /486 

12. 1 多样本总体的拟合度检验 /487 

•练习 

12.2 独立性检验 /491 
•练习 

12.3 拟合度 检验： 泊松分布与正态分布 
/498 

•泊 松分布 •正 态分布•练习 • 小结•术 
语释义 • 重要公式 • 补充练习 
案例研究两党议程变更 /511 
附录 12. 1 用 Minitab 进行拟合度检验和独立 

性检验 /512 


附录 12. 2 用 Excel 进行拟合度检验和独立性 

检验 /513 

第 13 章方差分析与试验设计 /515 
统计 实例： BURKE 市场调研公司 /516 
13. 1 方差分析导论 /517 

• 方差分析的假定*概念总览 

13.2 方差 分析： A ： 个总体均值相等性的检验 
/520 

• 总体方差组间估计 • 总体方差组内估 
计•方差估计量的 比较： F 检验•方差 
分析表 • 方差分析的计算结果 • 练习 

13.3 多重比较方法/530 

• 费舍尔 LSD 方法•第一类错误的概率 
•练习 

13.4 试验设计介绍/ 535 

•数据收集 ， 

13.5 纯随机设计/ 537 
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13.6 随机区组设计 /543 

•空中交通管制员的工作压力测试•方 
差分析方法•计算与结论•练习 

13.7 因子试验/549 

•方差分析方法•计算与结论•练习•小 
结 • 术语释义 • 重要公式 • 补充练习 
案例研究1 WENTWORTH 医疗中心 /568 

案例研究2 工业产品销售员的报酬/569 
附录 13. 1 用 Minitab 进行方差分析和试验设 

计 /571 

附录 13. 2 用 Excel 进行方差分析和试验设计 

/572 

第 14 章简单线性回归 /577 
统计 实例： 宝丽来公司 /578 
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14.1 简单线性回归模型 /579 

• 回归模型和回归方程•估计回归方程 

14.2 最小二乘法 /582 
•练习 

14.3 判定系数 /592 
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14.4 模型假设 /599 
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注意•练习 
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/610 
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/630 
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充练习 

案例研究 1 教育支出和学生成绩 /646 
案例研究 2 美国交通局 /648 
案例研究 3 校友捐赠 /649 
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20.1 统计过程管理 /891 

•控制图 G 控制图：已知过程均值和标 
准差控制图：未知过程均值和标准差 

• i ? 控制图 • p 控制图 • 叩控制图•控 
制图的解释•练习 
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统计实例:商业周刊 

1.1 在商务和经济中的应用 

/ 会计 
财务 
营销 
生产 
经济 
1.2 数据 

元素、变量和观测值 
度量尺度 
定性和定量数据 
截面数据和时间序列数据 

1.3 数据来源 
现存数据源 
统计研究 
数据采集误差 

1.4 描述性统计 
1.5 统计推断 
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商业周刊 


* 


纽约市，纽约州 

《商业周刊 》 (Business Week ) 全球发行量超过 
100万份，是世界上拥有最广泛读者的商业类杂志， 
拥有200多名忠于职守的记者、编辑和26个部门分 
布在世界各国家，主要登载经济和商贸活动中饶有 
兴趣、内容丰富的文章。该杂志不仅刊登谈论热门话 
题的特色文章，还常设一些关于国际商贸、经济分 
析、信息处理和科技进展等栏目。特色文章和常设栏 
目所传递的信息能帮助读者及时透视时事风云变 
幻，以便估计其对经济商务活动环境产生的影响。 

《商业周刊》几乎每一期都发表一份关于当前热 
门话题的深度报告，这样的深度报告常常包含一些 
统计论据和概述，以帮助读者理解商务和经济信 
息。例如，2000年1月17日那一期发表了一篇“提高 
利率谁受害最大”的 报告； 紧接着的一期 （2000 年1 
月24日）发表了一篇“共同基金何错之有”的 报告； 
2000年2月28曰那一期发表了一篇关于期权的报 
告。另外，每周一期的《商业周刊投资者》 （ 

Week 都要发布关于产品指数、股票价格、共 

同基金和利率等方面的经济走势统计。 

《商业周刊》中的统计报告和统计信息也能帮助 
经理们做好经营管理工作。例如，一份关于订阅者的 
年度综述报告可帮助公司了解订阅总人数、读者口 

* 作者衷心感谢《商业周刊》研究部经理 Charlene Trentham 
提供这一统计实例。 
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《商业周刊》在许多文章中利用统计事例和汇总资料 。 © 
Joe Higgins/South-Westem. 

味、可能达到的订阅量、生活风格，等等。《商业周刊》 
的经理们利用从综述报告中得出的统计结论更好地 
为订户和广告商服务。例如，有一个时期对北美订户 
的调查统计情况表明，有90%的订户愿意购买家庭 
电脑，64%的订户为了工作也需要购买电脑。这一统 
计结果提醒《商业周刊》的经理们注意到，订阅者会 
对关于电脑发展趋势方面的文章感兴趣，也会引起 
潜在的广告商的兴趣。这么高百分比的家庭电脑和 
工作用电脑的潜在购买者无疑对电脑制造商在《商 
北周刊》上刊登广告会产生极大的诱惑和激励。 

在本章中，我们讨论可用于统计分析的数据类 
型，并说明这些数据是如何获取的。我们介绍描述性 
统计和统计推断，它们是将数据转化为有用的而且 
容易被解释的统计信息的方法。 


我们经常能在报纸和杂志上的文章中看到如下的一些语句： 

• 思科公司 （ Cisco )， 互联网基础设备制造商，在纳斯达克星期一收盘时的市值为5 550亿 
美元 Today ， March 28, 2000) 。 

50家最大公司的 CEO 的年平均收入是930万美元 ( Forbes ， April 3, 2000) 
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• 电子购物网站每招徕一位顾客的平均支岀是108美元认 March 2000)。 

• 《华盛顿邮报 》 （Washington Postreaches ) 本地区订户比例平时工作日达到46%，周末达到 
61% ,是大城市报纸发行量的顶尖大户 （/ January 10, 2000) 。 

• 股票平均能使75% 的投资者盈利 （ 77 ie Wall Street Journal , March 27, 2000) 。 

• 1999 年赛季职业棒球队比赛门票的平均价格是 14. 91 美元 （[/ S 4 Today , April 15, 1999)。 

上述语句中的量化数据 （5 550亿美元、930万美元、108美元、46%、61%、75%和 14.91 
美元）就称为统计 ( statistics )。 因此，在日常用法中，统计这一术语主要是指这些定量数据。然 
而，统计学的研究领域或对象的内涵更加丰富。广义上讲，统计是收集、分析、提炼和解释数据 
的科学与艺术。特别是在商务和经济中的统计应用，收集、分析、提炼和解释数据旨在帮助经理 
和决策者更好地把握商务和经济环境的变化，以便科学、正确地作岀决策。在本教材中，我们强 
调统计在商务和经济决策方面的用途。 

第1章先就统计在商务和经济方面的应用作了一些介绍。 1.2 节中明确界定了数据这一术语 
的含义，并给岀数据集的概念。这一节也介绍了像变量 ( variables ) 和观测值 ( observations ) 等一些关 
键术语，讨论了定量数据和定性数据之间的区别，也说明了截面数据和时间序列数据之间的区 
别。 1.3 节探讨了如何从现实活动中获取数据或通过专门的实验性研究获得新数据。对如今在数 
据获取中起着重要作用的互联网，也给予了高度关注。数据在描述性统计和统计推断中的进一步 
用途将在 1.4 节和 1.5 节中予以论述。 


1.1 在商务和经济中的应用 

在当今贸易和经济全球化的大背景下，需要应用大量的统计信息。最成功的经理和决策者就 
是能真正明白信息的作用并能有效地利用它们的人。这一节我们阐述了统计应用于商务和经济中 
的几个例子。 

会计 

公共会计公司接受客户委托按统计抽样程序进行审计稽核。举例来说，一个会计公司要确定 
客户提供的账单上显示的收入账目是否真实地反映了实际收入。一般情况下，每一客户提供的账 
单要包括很多笔账目，一笔一笔地审核和确认太耗费时间并且代价太高，在这种情况下通常的做 
法是，由审计机构从账单上选择一些子集作为样本。在重新审核所抽出的样本的准确性后，审计 
师就可得岀结论，以确定是否可以认为客户账单上的收入账目是可接受的。 

财务 

财务顾问们利用多方面的统计信息进行投资指导。在股票市场上，顾问们综合了包括市盈率 
和股息等多方面的信息，在将个股信息与股市的平均信息比较之后，就可作出某一只股票是涨还 
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是跌的判定。例如， Barron，s (Januaiy 10, 2000) 报告，30只股票的道琼斯工业平均指数的市盈 
率平均值是 24.7, 菲利普•莫里斯 (Philip Morris ) 的市盈率是9。此时关于市盈率的统计信息表 
明，与道琼斯股票的平均情况相比，菲利普•莫里斯的股价偏低。于是，财务顾问就有可能得出 
菲利普•莫里斯股票当前正处于下跌时期的结论。这些和其他方面的信息帮助顾问们作出是买、 
是卖还是持股的建议。 

营销 


零售付款机上的电子扫描仪是用来收集各种营销方案实际效果数据的。例如，像 ACNielsen 
和信息资源公司 （Information Resources , Inc . )那样的数据供应商从商店购买某一时点上的扫描数 
据，经过加工处理、作出数据统计汇总后再卖给制造商。制造商为获得每一产品目录的这种类型 
的扫描数据平均要花费387 325美元 （Scanner Data User Survey , Mercer Management Consulting , Inc ., 
April 1997) 。制造商也购买诸如特殊定价和设立店内显示牌等促销活动效果的数据和统计研究报 
告。部门经理通过分析扫描统计和促销活动统计数据能明白促销措施与实际销售额之间的关系。 
这样的分析对制定各种产品未来的营销战略是大有裨益的。 

生产 

由于已进人重视质量的时代，所以质量控制是统计在生产中非常重要的应用。大量的质量控 
制统计表用于监控生产过程的产出。特别是， X - 直方图用于监控产出的平均值。例如，假设有 
一台12盎司标准的软饮料灌装机，定期地从产品中选取一些软包装饮料作为样本，计算出样本灌 
装量的平均值。将平均值或％-直方图的值标 绘在％ -直方 图上： 如果标绘值在％-直方图上方 
控制线之上，就表明该批产品灌装 过量； 如果标绘值在 rc - 直方图下方控制线之下，就表明该批 
产品灌装不足。这一过程处于“控制”之中，只要标绘值在％-直方图上方控制线和下方控制线 
之间，就允许继续生产。更贴切的解释是，％-直方图能够帮助确定何时必须调整和校正生产过 

-rrt 

程。 

经济 

人们会经常要求经济学家提供对未来经济走势或某些特殊领域的发展情况的预测。他们在预 
测时需要用到多方面的统计信息。举例来说，经济学家利用生产价格指数、失业率和生产能力利 
用情况等像指示器那样反映出来的统计信息，这些统计指示值常常被输人到计算机预测模型中用来 
预测通货膨胀率。 

像这一节中介绍的描述性统计的应用是本教材的组成部分。这些例子可使我们对统计的广泛 
应用有一个大致的了解。为列举这些补充例子，我们已经请商务和经济领域的实际工作者提供统 
计应用实例作为每章的开篇，以便引出该章所要讲解的内容。统计应用实例充分显示出统计在各 
行各业制定决策时的重要性。 
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1.2 数据 

数据 ( Data ) 是为了表述和解释现实问题所收集、分析和汇总的事实依据与图表。为便于研 
究，将用于特定研究而采集的数据结集在一起，称之为 数据集 (data set )。 表 1. 1列示出一个包含 
25只影子股票的数据集，这25只影子股票是由美国个体投资者协会跟踪调查的。影子股票是较 
小公司的普通股票，不会受到华尔街分析家们的密切关注。 


表 1.1 25 只影子股票的数据集 



CD 光盘数据 
Shadow 


公司名称 

交易所 

股票代号 

年发售额 

每股盈利 

价格/盈利率 




( 百万美元） 

( 美元） 

( 市盈率） 

Advanced Comm. Systems 

OTC 

ACSC 

75. 10 

0. 32 

39. 10 

Ag-Chem Equipment Co. 

OTC 

AGCH 

321. 10 

0.48 

23.40 

Aztec Manufacturing Co. 

NYSE 

AZZ 

79.70 

1. 18 

7. 80 

Cal-Maine Foods, Inc. 

OTC 

CALM 

314. 10 

0.38 

11.70 

Chesapeake Utilities 

NYSE 

CPK 

174. 50 

1. 13 

16. 20 

Dataram Corporation 

AMEX 

DTM 

73. 10 

0. 86 

11.00 

Energy South, Inc. 

OTC 

ENSI 

74,00 

1.67 

13.20 

Gencor Industries, Inc. 

AMEX 

GX 

263. 30 

1.96 

4,70 

Industrial Scientific 

OTC 

ISCX 

43.50 

2.03 

11.50 

Keystone Consolidated 

NYSE 

KES 

365. 70 

0. 86 

9. 40 

LandCare USA, Inc. 

NYSE 

GRW 

111.40 

0. 33 

29. 40 

Market Facts, Inc. 

OTC 

MFAC 

126. 70 

0. 98 

26. 50 

Meridian Diagnostics, Inc. 

OTC 

KITS 

36.30 

0. 46 

14.70 

Merit Medical Systems 

OTC 

MMSI 

67.20 

0.27 

24.50 

Met-Pro Corporation 

NYSE 

MPR 

61.90 

1,01 

12. 40 

Nobility Homes, Inc. 

OTC 

NOBH 

45, 80 

0. 87 

14.70 

Omega Research, Inc. 

OTC 

OMGA 

27. 60 

0. 11 

27.30 

Point of Sale Limited 

OTC 

POSIF 

12. 30 

0. 28 

25.40 

Psychemedics Corp. 

AMEX 

PMD 

17.60 

0. 13 

39.40 

Roadhouse Grill, Inc. 

OTC 

GRLL 

118.40 

0. 26 

20.80 

Selas Corp. of America 

AMEX 

SLS 

97. 10 

0. 77 

10.70 

Toy max International, Inc. 

OTC 

TMAX 

104. 50 

1.08 

4.70 

VSI Holdings, Inc. 

AMEX 

VIS 

166. 8 

0. 25 

〆■ 

21 

Warrantech Corporation 

OTC 

WTEC 

207. 30 

0. 13 

29.80 

Webco Industries, Inc. 

AMEX 

WEB 

153. 50 

0. 88 

7. 50 


资料来源 ： American Association of Individual Investors web site，March 1999 。 
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元素、变量和观测值 

元素 ( elements ) 是指作为数据来源的原有实物(体）。如在表 1.1 的数据集中，每一公司的股票 
就是一个元素，包含这25只股票的数据集就包含了 25个元素。 变量 ( variable ) 是元素中所感兴趣 
的那些特征。表 1. 1中的数据集具有下列五个 变量： 

• 交 易所： 股票交易的场所 —— NYSE (纽约股票交易所）， AMEX (美国股票交易所）和 
OTC (场外交易）。 

• 股票 代号： 用来在交易表中确认股票的缩写。 

• 年发 售额： 公司最近12个月内发售股票的总额，以百万美元为单位计量。 

• 每股 盈利： 最近12个月的每股盈利，按美元计。 

• 市 盈率： 每股的市场价格除以最近12个月的每股盈利。 

数据是在研究中收集与每一元素相应的任一变量的度量值而获取的。从某一特定元素获取的 
度量值集被称为一组 观测值 （ observation ) 。参见表 1. 1，我们看到第一组观测值 （Advanced 
Comm . Systems ) 的度量值集是 OTC , ACSC , 75.10, 0. 32和 39. 10。第二组观测值 （ Ag-Chem 
Equipment Co .) 的度量值集是 OTC , AGCH , 321.10, 0.48 和 23. 40,等等。因为数据集包含25 
个元素，所以它就有25组观测值。 

度量尺度 

数据按下列度量尺度其中之一的方式 收集： 名义尺度、序数尺度、区间尺度和比例尺度。度 
量尺度决定了数据中蕴涵的信息量，标示出非常适合于应用的数据综述和统计分析。 

当数据是用来确认元素属性的标签或名称时，相应变量的度量尺度被称做名 义尺度 （nominal 
scale ) o 例如，还见表 1.1 中的数据，我们看到交易所变量的度量尺度就是名义尺度，因为 
NYSE 、 AMEX 和 OTC 是用于标明公司股票进行交易的场所的。在度量尺度是名义尺度的情形 
中，数字代码以及非数字型的标识符都可使用。例如，为便于数据收集并作好将数据录入计算机 
数据库的准备，我们可以使用数字 代码： 用1表示纽约股票交 易所； 用2表示美国股票交 易所； 
用3表示场外交易。在这一场合中，数字型的1、2和3等值都是用作标识股票交易场所的。即使 
数据是数字型的，此时的度量尺度仍是名义尺度。 

如果数据既具有名义数据的性能又需要按先后顺序或赋予一定的顺序来排列，这种情况下称 
一个变量的度量尺度为序 数尺度 (ordinal scale ) 。例如 ， Eastside Automotive 向顾客发放调查表，征 
询汽车维修服务质量方面的意见，每一位顾客反馈一个维修服务质量的 等级： 优秀、良好或较 
差。因为获取的数据——优秀、良好或较差是标识型的，具有名义变量的 性能； 另外，还可以按 
与服务质量相应的顺序或赋予一定的顺序排列记录下的数据，如优秀表示服务质量最好，接下来 
是良好，然后是较差。如此的度量尺度是序数尺度。注意，序数数据也可以用数字代码记载。例 
如，我们可用1表示优秀，2表示良好，3表示较差，仍能保持序数数据的性质。由此可见，一个 
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序数数据既可以是非数字型的也可以是数字型的。 

如果数据具有序数数据的性能，并且是以特指的度量单位表示的观测值之间的一段区间，则 
这种变量的度量尺度称为区 间尺度 （interval scale )。 区间数据总是数字型的。学习能力倾向测试 
( SAT ) 分数是区间尺度数据的一个例子。例如，三个学生的 SAT 分数分别为1 120、1 050和 
970,能够按最好的成绩和最差的成绩排序。另外，分数之间的差异是有一定含义的，比如，学生 
1比学生2多1 120 - 1 050 =70分，学生2比学生3多1 050 -970 =80分。 

如果数据具有区间数据的所有性能，并且有必要用两个值的比例来表示，则该变量的度量尺 
度称为比 例尺度 (ratio scale )。 比例数据总是数字型的，诸如距离、高度、重量和时间等变量都要 
用到比例尺度。这一尺度必须要有一个零值，变量取零值时表示什么也不存在。例如，让我们来 
看汽车的成本。零值意味着汽车没有成本或是免费的。如果我们拿30 000美元成本的一辆汽车与 
15 000美元成本的另一辆汽车作比较，比例值30 000/15 000 =2表示第一辆汽车的成本是第二辆 
汽车成本的两倍，或相当于两辆第二辆汽车的成本。 


定性和定量数据 

数据能进一步划分为定性数据（质量型数据）或者定量数据（数量型数据） 。定性数据 (qualitative 
data ) 用来确认每一元素属性的标签或名称，定性数据既可用名义尺度也可以用序数尺度表示，既 
可以是非数字型的也可以是数字型的。 定量数据 (quantitative data ) 是数字型取值的，表示大小和多 
少，定量数据既可用区间尺度也可用比例尺度。 

用于汇总数据的统计方法取决于数据是定性的还是定量的。 

一个定性变量 (qualitative variable ) 是用定性数据表示的变量， 一个定量变量 (quantitative vari - 
able ) 是用定量数据表示的变量。合适的统计方法的选择取决于变量是定性的或者是定量的。如果 
变量是定性的，统计分析是极其有限的。在每一统计类别中我们可以通过逐一列举观测值的方式 
概括出定性数据的特性或计算出定性数据在其中的比例。即使定性数据是以数字代码表示的，对 
其进行加、减、乘和除等算术运算也是没有意义的。 2.1 节介绍汇总定性数据的方式。 

另一方面，对定量数据进行算术运算，却经常能得出有意义的结果。例如，对一个定量变 
量，可先将数据求和然后再除以观测值的个数，从而求出平均值。这样的平均值有实际含义，并 
且很容易解释。一般情况下，当数据是定量的时候，有更多的统计方法可供选择。 2. 2节和第3 
章介绍了概括定量数据的方法。 


截面数据和时间序列数据 

为了便于统计分析，有必要对截面数据和时间序列数据加以区分。 截面数据 ( cross-sectional 
data ) 是在同一时点或近似同一时点上收集到的数据。表 1. 1中的数据是截面数据，因为它们这五 
个变量的取值，反映了在同一时刻25只影子股票的情况。 时间序列数据 (time series data ) 是在一 
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系列时间段采集的数据。例如，图 1.1 中的曲线标出了美国城市每加仑无铅标准汽油的平均价 
格，从1999年1月的每加仑 0.97 美元到2000年2月的每加仑 1.37 美元。本书所介绍的大部分 
统计方法可用于截面数据。 


每 

加 

仑 

平 

均 

价 

格 

美 

元 


1.50 
1.40 
1.30 
1.20 
1. 10 
1.00 
0.90 
0. 80 



1999 1 2 3 4 5 6 7 8 9 10 11 12 13 14誦 

月月月月月月月月月月月月月月 ^ 


资料来源： U- S. Bureau of Labor Statistics 。 

图 1, 1 美国城市每加仑无铅标准汽油的平均价格 


评注 


1. 观测值是度量值的集合，相应地是为数据集 观测值个数乘以变量个数。 

中的每一元素赋值。因此，观测值的个数总是 2. 定量数据可以是离散的或连续的，度量不可 
与元素的个数相同。每一元素的度量值的个 分事物的多少的定量数据就是连续的。 

数等于变量的个数。因此，数据项总数等于 


1.3 数据来源 

数据可以从现有数据源中获取，或从观察和为得到新数据而设计的实验性研究中获取。 

现存数据源 

在某些场合，用于一些特殊需要的数据可能已存在于企业或组织中。所有的企业都睪对它们 
的雇员、客户和经营状况等建立不同的数据库。关于雇员工资、年龄和工龄的数据通常可从内部 
个人记录中获取，关于销售、广告支出、配送成本、库存和产量的数据一般情况下都可以从其他 
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内部记录中获得。大部分企业也都保存有关于客户的详细数据。表 1.2 列举了一些数据，大部分 
企业通常都可从内部信息源获取。 

表 1. 2 可从企业内部获取的数据的例子 

数据来源 一些可获得的典型数据 

雇员记录 姓名、地址、身份证号码、工资、休假天数、病假天数和奖金 

生产记录 部门或车间数量、产量、直接劳动成本和材料成本 

库存记录 部门或仓库数量、实有库存量、重复订购率、经济订购率和折扣表 

销售记录 生产部门、销售额、地区销售额和分类客户销售额 

信誉记录 客户名称、地址、电话号码、信誉等级和财务收支状况 

客户文件 年龄、性别、收入水平、家庭规模、地址和偏好 


现在，实际中所需要的商务和经济数据可从专门收集和保存数据的机构那里获得，企业可通 
过租借或购买的方式从这些外部信息源获取数据。 Dun & Bradstreet 、 Bloomberg 和 Dow Jones & 
Company 是三家能够为客户提供广泛的商务数据库服务的公司。 ACNielsen 和信息资源公司也在成 
功地为广告商和制造商提供商务数据收集和加工服务。 

数据也可从不同的行业协会和专门的营利机构获取。美国旅游行业协会保存了各周的诸如旅 
游者数量和旅游支出等与旅游有关的信息，旅游行业的公司和个人会对这类数据感兴趣。研究生 
管理委员会保存有关于考试成绩、学生特长和研究生培养计划等数据。从这些数据源公司获得的 
大部分数据所花费的成本都在用户的可接受范围之内。 

近年来，互联网已成为数据来源的一个重要渠道。几乎所有的公司都有自己的互联网网站并 
提供公共访问端口。图 1.2 给出了部分公司的互联网网址，包括为每章开篇处提供统计实例的那 
些公司。进人这些网站，人们能很容易地获取许多关于产品和与这些公司有关的其他类型的信 
息。另外，大量的公司专门在互联网上提供可资利用的信息。结果使人们几乎能在网上获得像股 
票报价、餐馆饭菜的价格、工资数据等无限的、五花八门的信息。 

政府代理机构是获取现存数据的另一重要渠道。举例来说，美国劳工部保存有关于就业率、 
工资水平、劳动力规模和联邦成员的数据信息。表 1.3 列举出部分政府机构和所能提供的几类数 
据。大部分政府机构也将数据收集和加工处理结果通过网站向社会提供。例如，美国人口普査局在 
网站 http : // www . census , gov 中有丰富的数据。图 1. 3显示岀美国人口普查局的主页。 

统计研究 

有时一些特殊需要的数据并非总能从现存数据源得到。在这种场合，可通过统计研究的方式 
获得数据。统计研究可被划分为实验型和观测型两类。 

在实验型统计研究中，首先要选准所感兴趣的主要变量。然后，找出一个或多个其他变量并 
加以控制，以便使获得的数据能反映出其他变量是如何影响主要变量的。例如，药厂可能会通过 
实验来掌握一种新药是如何影响血压的情况的。血压是该研究中最感兴趣的变量，新药的用量是 
另一个重要的变量，实验希望能找出其与血压之间的因果关系。为获得新药对血压影响效果的数 
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ACNlelsen Corporation 

http: //www. acnielsen. com 

Alcoa Inc. 

http: //www. alcoa. com 
Amazon, com, Inc. 
http: / /www. amazon, com 
American Airlines Inc. 
http: //www. aa. com 

American Association of Individual Investors 

http: //wwrw. aaii. com 

American Express Company 

http: / /www. americanexpress. com 

Andersen Consulting 

http: //www. ac. com 

America Online, Inc. 

http: // www. aol. com 

AT&T 

http: / /www. alt. com 
BMW of North America 
hup: //www. bmw. com 
The Boeing Company 
htlp: //www. boeing. com 
Business Week 

http: / /www. businessweek. com 

BUY. COM,Inc. 

http: //www. buy. com 

Caterpillar ， Inc. 

http: / /www. caleqjillar. com 

Charles Schwab & co. 

htlp: //www. charlesschwab. com 

Chemdex Corporation 

http: //www. chemdex. com 

Chevron Corporation 

http: //www. chevron, com 

Cisco Systems, Inc. 

hllp: / / www. cisco, com 

Citibank 

http: //www. citibank, com 
The Coca Cola Company 
http: / / www. cocacola. com 
Colgate-Palmolive Company 
hup: //www. Colgate, com 
Ddl Computer Corporation 
http: / /www. dell, com 


Delta Air Lines 

http: / / www. delta, com 

Disney 

http: //www. disney. com 

Dollar General Corporation 

http: //www. dollargeneral. com 

Dow Chemical Company 

http ： / /www. dowchemical. com 

E. I. Dupont de Nemours and Company 

http: / / www. dupont. com 

E* TRADE Securities, Inc. 

http: //www. etrade. com 

Ford Motor Company 

http: //www. ford, com 

General Electric Company 

hllp: / /www. ge. com 

General Motors Corporation 

hup: //www. gm. com 

The Goodyear Tire & Rubber Company 

http: //www. goodyear. com 

Harris Corporation 

http: / / www. harris. com 

Hewlett-Packard Company 

hltp: / /www. hp. com 

The Home Depot, Inc. 

hltp: / /www. homedepol. com 

Honeywell 

http: / / www. honeywell. com 

IBM Corporation 

http: //www. ibm. com 

International Paper 

http: / /www. ipaper. com 

Johnson & Johnson 

http: / / www. johnsonjohnson. com 

L. L. Bean, Inc. 

http: //wvrw. llbean. com 

Lucent Technologies 

http: / / www. lucenl. com 

McDonald’s Corporation 

hltp: / / www. mcdonalds. com 

Mead Corporation 

http: / /www. mead, com 

Microsoft Corporation 

http: / /www. microsoft. com 

图 1. 2 部分公司的互联网网址 


Minnesota Mining and Manufacturing(3M) 

http: / / www. mmm. com 

Morton International, Inc. 

http ： / /www. morton. com 

Motorola, Inc. 

htlp: / /www. motorola, com 

Novell, Inc. 

http: / /www. novell. com 
Oracle Corporation 
htlp: / /www. oracle, com 
Polaroid Corporation 
http: / /www. polaroid. com 
Procter & Gamble Co. 
http: / / www. pg. com 

The Prudential Insurance Company of America 

http: / / www. prudential, com 

Quicken, com 

http: / /www. quicken, com 

SAP America, Inc. 

http: //www. sap. com 

Sears Roebuck and Company 

htlp: / / www. sears, com 

Siebel Systems, Inc. 

http: / /www. siebel. com 

Sprint Corporation 

http: //www. sprint, com 

Toyota Motor Corporation 

http: / /www. toyota. com 

The Travelers Insurance Company 

http: / /www. travelers, com 

Union Carbide 

http: //www. unioncarbide. com 

United Way of America 

http: //www. unitedway. org 

US Airways, Inc. 

http: / / www. usair. com 

Visa International 

http: //www. visa, com 

Wal-Mart Stores ， Inc. 

http: //www. walmart. com 

Xerox Corporation 

http: / / www. xerox, com 

The Yankee Group 

hup: / /www. yankeegroup. com 


表 1. 3 部分政府机构和所能够提供的几类数据 


政府机构 

人口普查局 

http: // www. census, gov 


联邦储备局 

http: // www. bog. frb. fed. us 
预算编制办公室 

http: // www. whitehouse. gov/omb 
商业部 

http: // www. doc. gov 


一些可供利用的数据 

人口数据和分布状况、家庭数量及其分布、家庭收入及其分布 

关于货币供应、信誉记录、汇率和贴现率的数据 


关于财政收人、支岀和联邦政府发行债券的数据 


关于商业活动、工业出口额、工业利润水平和产业的增长与衰退等方 
面的数据 
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图 1. 3 美国人口普查局的主页 


据，可选择一些个体样本进行实验。控制新药的用量，对不同的组别给予不同的药量，然后收集 
每一组受试对象的血压情况的数据。实验数据的统计研究有助于弄清楚新药是如何影响血压的。 

曾进行的最大规模的实验型统计研究应属 1954 年注射沙克疫苗的公共.健康服 
务,该研究从全美国小学 1一 3 年级的学生中选出了近 200 万个儿童作为注射对象。 

非实验型或称为观测型统计研究并不是有目的地去控制所感兴趣的变量。观察也许是观测型 
研究中最常用的典型方法。举例来说，在对一次征求顾客意见活动的观察中，首先要明确需要研 
究的问题，然后设计调查问卷、选择一些调查对象作为样本。一些餐馆运用观测型研究获取顾客 
关于餐馆的饭菜质量、服务和就餐环境等方面的数据。由美国佛罗里达州 Redington 的 Lobster Pot 
餐馆设计的调查问卷见图1.4。注意，请顾客根据自己的感受对饭菜质量、服务态度、服务措 
施、清洁程度和管理水平这五个变量按优秀、良好、满意和不满意的等级顺序打分，由此获得的 
数据能帮助 Lobster Pot 的经理估计餐馆的经营状况。 


对抽烟者和不抽烟者的研究是观测型研究，因为研究者不能确知和控制将来哪些人会抽 
烟，哪些人不抽烟。 
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LOBSTER 

Gvvv^3 Pot 

RESTAURANT 

； (艮荣幸您能光临 Lobster Pot 餐馆，相信您还会再次光临。如果能占用您一点点时间，填写这张卡片，我 
们将对此表示由衷的赞赏。您的评价和建议对我们非常重要，谢谢！ 


顾 客姓名 



优秀 

良好 

满意 

不满意 

饭菜质量 

□ 

□ 

□ 

□ 

服务热情 

□ 

□ 

□ 

□ 

服务速度 

□ 

□ 

□ 

□ 

卫生状况 

□ 

□ 

□ 

□ 

管理水平 

□ 

□ 

□ 

□ 


总的评价 


改进建议_ 

请在入口处的意见箱留下意见，谢谢。 


图 1.4 佛罗里达州 Redington 的 Lobster Pot 餐馆的顾客调查问卷（惠允使用) 


将数据和统计分析结果用于管理决策，经理们必须了解获取数据所需要的时间和成本。当在 
相对较短的一段时期内需要获得数据时，利用现存数据源是一种理想的方法。如果一些重要的数 
据不便从现有数据中找到，就必须考虑到获取数据所要占用的时间和花费的成本。在各种情况 
中，决策者都会意识到统计分析对决策过程的积极影响。数据收集和进行统计分析所付出的成本 
是不会超过利用这些信息形成更好的决策所节省的成本的。 

数据采集误差 

经理们始终需要牢记在统计研究中数据是可能产生误差的。利用错误的数据也许会比根本不 
利用数据更糟糕。无论什么时候，获取的数据的值只要不等于实际值或不同于按正确的釆集过程 
获得的数据的值，就会产生数据釆集误差。许多数据采集方法都会造成这类误差。例如，访谈员 
可能会出现记录错误，像将24 岁 的年龄误记为42 岁， 或在向访谈对象提问题时可能会误导或作 
出不正确的反应。 

实验数据分析更关注数据的收集和记录，以确保不出现错误。可采取一些特殊措施检查数据 
的内在一致性。举例来看，这样一种情况就表明要重新检查一下相应的数据 记录： 一个22岁的人 
却说有20年的工作经历。数据分析中一些过大或过小的数值，被称为异常值，也促使要复查数 
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NYSE 


AMEX 

交易所 


OTC 


据，圈出那些可能有错误的数据。第3章中介绍统计学家圈定异常值的一些方法。 

数据釆集过程中经常会发生误差。盲目地利用一切可以得到的或不认真地收集到的数据，将 
会产生误导和导致作出错误决策。因此，按照正确的步骤采集数据能确保决策信息的可信度，提 
高数据的利用价值。 


1.4 描述性统计 

绝大部分报纸、杂志、公司报告和其他大众化的统计信息都是以易于读者理解的方式披露 
的。将数据以图形、表格和数字的形式表示，这类统计方法被称为描述性统计 (descriptive statistics ) o 

再来参见表 1. 1中列举的25只影子股票情况的数据集，可用描述性统计方法对这一数据集中 
的信息给予综述。例如，表 1.4 给出了定性变量“交易所”的数据的表格式汇总。同样，数据的 
图形式汇总在图 1.5 中显示，被称为柱状图。这些表格和图形式汇总的目的是为了使数据更容易 
解释。参见表 1.4 和图1.5,我们能很容易地看岀在数据集中，大部分股票是通过直接交易完成 
的。用百分比频数的形式表示，56%是场外交易，24%的交易在美国证券交易所完成，20%的交 
易在纽约证券交易所完成。 


表 1. 4 交易所变量的频数和百分比频数 

交易所 

频数 

百分比频数 

纽约证券交易所 ( NYSE ) 

5 

20 

美国证券交易所 ( AMEX ) 

6 

24 

场外交易 （0 TC ) 

14 

56 

总计 

25 

100 





0 0 0 0.00 
6 5 4 3 2 1 


百分比频数 


图 1.5 交易所变量的柱状图 
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10 



0.0—7.9 8. 0—15.9 16. 0—23.9 24. 0—31. 9 39. 0—39. 9 

市盈率 

图 1.6 25只股票的直方图 


除表格和图形表示方式以外，数字型的描述性统计也用于汇总数据。最常用的数字型描述统 
计是平均值或均值。利用表 1.1 中25只股票年销售额的数据，我们可以将所有25只股票的年销 
售额相加再除以25,算岀年平均销售额。如此可得出年平均销售额为 1.255 4亿美元。这一平均 
值被作为数据的中心趋势或中点定位的度量。 

近几年，人们关注描述性统计的拓展和表述，对这类统计方法的兴趣在不断提高。第2章和 
第3章集中讨论描述性统计的表格式、图形式和数字式方法。 


1. 5统计推断 

在许多情形中，需要对其中的数据进行处理的元素群体（个人、公司、选民、家庭、产品、 
顾客，等等）非常之大。由于时间、成本和其他需要考虑的因素，只能从元素群体中收集一小部 
分数据。在特定研究中，元素的大群体被称 为总体 （ population ), 较小的一部分称 为样本 
( sample )。 我们给出下面的正式定义： 

作为研究对象的全部元素所组成的集合。 

祥本 

总体的一个子集。 


这些股票的定量变量市盈率数据的图形式汇总由图 1.6 给岀，被称为直方图。从这个直方图 
很容易看出，市盈率的值域范围从 0.0 到 39. 9,在 8.0 — 15. 9之间达到最高。 


百分比频数 
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统计学的一个主要贡献就是能利用样本数据来估计总体的特征并进行假设检验。这一过程被 
称为统 计推断 （statistical inference ) 。 

让我们来考察由 Norris 电器公司所做的一项研究，以此作为统计推断的一个例子。 Norris 电器 
公司生产一种能在许多电器产品上使用的高密度灯管。为提高灯管的使用寿命，产品设计部门推 
出一种新灯丝灯管。这种情况下，能够生产出来的所有新灯丝灯管被定义为总体。为估计新灯丝 
对灯管性能的改进，生产出200只新灯丝灯管进行检测。收集每只灯管在灯丝被烧断之前的使用 
小时数的数据，由此样本所得到的数据记录见表1.5。 

表 1. 5 Norris 电器公司作为样本的200只灯管的使用寿命(小时数） 



CD 光盘数据 


Norris 


107 

73 

68 

97 

76 

79 

94 

59 

98 

57 

54 

65 

71 

70 

84 

88 

62 

61 

79 

98 

66 

62 

79 

86 

68 

74 

61 

82 

65 

98 

62 

116 

65 

88 

64 

79 

78 

79 

77 

86 

74 

85 

73 

80 

68 

78 

89 

72 

58 

69 

92 

78 

88 

77 

103 

88 

63 

68 

88 

81 

75 

90 

62 

89 

71 

71 

74 

70 

74 

70 

65 

81 

75 

62 

94 

71 

85 

84 

83 

63 

81 

62 

79 

83 

93 

61 

65 

62 

92 

65 

83 

70 

70 

81 

77 

72 

84 

67 

59 

58 

78 

66 

66 

94 

77 

63 

66 

75 

68 

76 

90 

78 

71 

101 

78 

43 

59 

67 

61 

71 

96 

75 

64 

76 

72 

77 

74 

65 

82 

86 

66 

86 

96 

89 

81 

71 

85 

99 

59 

92 

68 

72 

77 

60 

87 

84 

75 

77 

51 

45 

85 

67 

87 

80 

84 

93 

69 

76 

89 

75 

83 

68 

72 

67 

92 

89 

82 

96 

77 

102 

74 

91 

76 

83 

66 

68 

61 

73 

72 

76 

73 

77 

79 

94 

63 

59 

62 

71 

81 

65 

73 

63 

63 

89 

82 

64 

85 

92 

64 

73 


假定 Norris 电器公司所感兴趣的是由样本作出统计推断，得知所有能用新灯丝制成的灯管的 
平均使用寿命。将表 4. 5中的200个值相加然后再除以200,计算出灯管的平均使用 寿命： 76小 
时。我们就能利用这一样本结果来估计灯管总体的平均使用寿命是76小时。图 1.7 是概括 Norris 
电器公司统计推断过程的示意图。 
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图 1. 7 Norris 电器公司的统计推断过程 ’ 

无论什么时候统计学家利用样本来估计总体的某些特征，他们通常都要相应地注明统计质量 
或精确度。以 Nonis 电器公司为例，统计学家就会指出，新灯管总体的平均使用寿命76小时具有 
4小时的误差范围，那么，所有新灯丝灯管的平均使用寿命的区间估计就是72小时一80小时。统 
计学家也可能会说明总体平均值是如何包含在72小时 一80 小时之间的。 



统计是收集、分析、提炼和解释数据的科学与艺术。几乎每一所院校商贸和经济学专业的大 
学生都要学习统计学课程。我们以介绍商务和经济中典型的统计应用案例的方式展开本章的论 
述 D 

数据是那些作为收集、分析、陈述和解释之用的事实依据和图表。四种度量尺度可用于获取 
关于特指变量的 数据： 名义尺度、序数尺度、区间尺度和比例尺度。当数据是用来确认元素属性 
的标签或名称时，相应变量的度量尺度被称为名义尺度。如果数据具有名义数据的性能，又有明 
确意义的先后顺序，该度量尺度称为序数尺度。如果数据具有序数数据的性能，并且是以特指的 
度量单位表示的观测值之间的一段区间，则称这种度量尺度为区间尺度。最后，如果数据具有区 
间数据的所有性能，并且有必要用两个值的比例来表示，则称该度量尺度为比例尺度。 

为了统计分析之目的，数据可划分为定性数据和定量数据。定性数据用来确认每一元素属性 
的标签或名称，可以是非数字型的或数字型的。定量数据是数字型的，表示大小和多少。定量数 
据或者是用区间尺度或者是用比例尺度度量。只有当数据是定量的时候，通常的算术运算才有意 
义。因此，适合于定量数据的统计计算并非总是适合于定性数据。 

在 1.4 和 1.5 节中，我们介绍了描述性统计和统计推断。描述性统计是以表格、图形和数字方式 
汇总数据的一种统计方法。统计推断是利用样本数据来估计总体的特征并进行假设检验的过程。 
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水语辞义 


统计： 收集、分析、提炼和解释数据的科学与艺术。 

数据： 被收集、分析和解释的事实依据与图表。 

数 据集： 在特定研究中所有收集到的数据。 

元素： 作为数据来源的原有实物(体）。 

变量： 元素中所感兴趣的那些特征。 

观测值： 对某一元素的一系列的度量。 

名义 尺度： 用标签或名称数据来确认某一元素属性的一种度量尺度。名义尺度可以是数字型的或 
者非数字型的。 

序数 尺度： 具有名义数据的性能、用来为数据排序的一种度量尺度。序数数据可以是数字型的或 
者非数字型的。 

区间 尺度： 具有序数数据的性能，并且是以特指的度量单位表示的观测值之间的区段变量的一种 
度量尺度。区间数据总是数字型的。 

比例 尺度： 具有区间数据的所有性能，并且有必要用两个值的比例来表示变量的一种度量尺度。 
比例数据总是数字型的。 

定性 数据： 用来确认某一元素属性的标签或名称的数据。定性数据以名义或序数尺度的形式表 
示，可以是数据型的或者非数据型的。 

定量数据： 用来表示事物量的多少的数据。定量数据以区间或比例尺度的形式表示，总是数字型 
的。 

定性变量： 用定性数据表示的变量。 

定量 变量： 用定量数据表示的变量。 

截面 数据： 在同一时点或近似同一时点上收集到的数据。 

时间序列数据 ：在 一系列时间段采集的数据。 

描述性 统计： 将数据以图形、表格和数字形式表示的统计方法。 

总体： 作为研究对象的全部元素所组成的集合。 

样本： 总体的一个子集。 

统计 推断： 利用样本数据对总体进行估计或假设检验的过程。 



1. 讨论作为数字整理的统计和作为一门学科或研究领域的统计学之间的区别 


2. Cond ^ Nast Traveler 对顾客做了一次年度性的民意测验，以确定全世界什么地方最好玩。表 
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籠=备 1.6 是一个从最近的一次民意测验中抽出的9个欧式旅馆的样本。在旅游旺季旅馆的标 
准间的价格按从最低$到最高_排列。总分包括顾客对每一个旅馆的房间、服务、餐 
饮、位置/氛围和公共面积等方面的评价，较高的分数表示较高的满意度。 

a . 这一数据集中有多少个元素？ 

b . 这一数据集中有多少个变量？ 

c . 哪些变量是定性变量，哪些变量是定量变量？ 

d . 用于每一变量的度量尺度是什么类型的？ 


3. 参见表 1. 6。 

a . 9个旅馆的平均房间数是多少？ 

b . 计算总分的平均值。 

c . 位于英国的旅馆所占的百分比是多少？ 

d . 具有$$级房间的旅馆的百分比是多少？ 


表 1.6 欧洲住宿地的等级 



CD 光盘数据 


Hotel 


旅馆名称 

国家 

客房等级 

客房数置 

总分 

Graveteye Manor 

英国 

$$ 

18 

83.6 

Villa d’ Este 

意大利 

$$$$ 

166 

86.3 

Hotel Prem 

德国 

$ 

54 

77.8 

Hotel d，Europe 

法国 

$$ 

47 

76.8 

Palace Luzern 

瑞士 

$$ 

326 

80.9 

Royal Crescent Hotel 

英国 

$$$ 

45 

73.7 

Hotel Sacher 

澳大利亚 

$$$ 

120 

85.5 

Due de Bourgogne 

比利时 

$ 

10 

76.9 

Villa Gallici 

法国 

$$ 

22 

90.6 

资料来源： Cond4 Nast Traveler , January 2000 。 





4, 《财富》杂志发布全美500家最大的工业公司按年收入和利润排序情况的数据。这500 
mz 3 > 家公司的样本数据由表 1.7 给出。 

a . 这一数据集中有多少个元素？ 

b . 什么是总体？ 

c . 计算样本的平均收入。 

d . 利用 （ c ) 所得的结果，估计出总体的平均收入是多少？ 

5. 考察表 1.7 中《财富》500强企业样本的数据集。 

a . 这一数据集中有多少个变量？ 

b . 哪些变量是定性变量，哪些变量是定量变量？ 

c . 计算样本的平均利润。 

d . 利润超过1亿美元的企业所占的百分比是多少？ 
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e . 具有工业代码3的公司占多少百分比? 


表 1 . 7 《财富》500强企业中的一个10家企业的样本 



CD 光盘数据 


Fortune 


公司名称 

公司收入 

利润 

工业代码 


( 百万 美元 } 

( 百万 美元 } 


US Airways Group 

8 688.0 

538.0 

3 

International Paper 

19 500.0 

213.0 

23 

Tyson Foods 

7 414. 1 

25. 1 

20 

Hewlett- Packard 

47 061,0 

2 945.0 

13 

Intel 

26 273.0 

6 068, 0 

49 

Northrup Grumman 

8 902.0 

214.0 

2 

Seagate Technology 

6 819.0 

-530.0 

11 

Unisys 

7 208.4 

387.0 

10 

Westvaco 

2 904.7 

132.0 

23 

Campbell Soup 

7 505.0 

660,0 

20 

资料 来源： Fortune, April 26, 1990 。 




6. 哥伦比亚出版社向它的邮购客户俱乐部成员提供 CD 光盘和磁带。哥伦比亚出版社的一份音乐 
调查表向俱乐部的新成员询问11个问题，其中所要问的一些问 题是： 

a . 在最近12个月内您购买了多少 CD 光盘和磁带？ 

b . 目前您是国家图书邮购俱乐部的成员吗（是或不是）？ 

c . 您的年龄？ 

d . 包括您自己在内，您家共有几口人（成人和小孩）？ 

e . 您有兴趣购买哪种音乐？（列出 15 类音乐，包括疯狂摇滚、柔情摇滚、成人流行音乐、重金 
属乐、打击乐和田园音乐等） 

区分出每一问题提供的是定性数据还是定量数据。 

7. 加利福尼亚州的一家中介机构将工作岗位划分为专家、白领和蓝领岗位。以1定义专家、2定 
义白领和3定义蓝领的方式记录数据。 

a . 变量是工作岗位，它是定性变量还是定量变量？ 

b . 这一变量所用的度量尺度是什么类型的？ 

8. 《华尔街日报》 /NBC 向 2013 名成人做了一次新闻 调查： “您对当前美国经济形势的满意程度 
如何？ ” （ 77 ie Wall Street Journal , December 12, 1997 )回答方式是从不满意、满意和不能肯定三 
者中选择其一。 

a . 这次调查的样本规模是多大？ 

b . 数据是定性的还是定量的？ 

c . 对这一问题适合用平均值或百分比进行数据汇总，哪种方法更好？ 

d . 在收到的反馈表中，28%的人对美国经济不满意。有多少人选择了这一项？ 
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9. 美国商业部报告，收到申请美国 MalcolmBaldrige 国家质量奖的情况如下： 23 家大的制造企 
业， 18 家大的服务性企业和 30 家小的商行。 

a . 行业类型是定性变量还是定量变量？ 

b . 小商行的申请者占多大百分比？ 

10. 指出下列每一变量是定性的还是定量的，并说明每一变量最适合的度量尺度。 

a . 年龄 

b . 性别 

c . 社会地位 

d . 汽车制造厂家 

e . 倾向于设置死刑的人的数量 

11. 指出下列每一变量是定性的还是定量的，并说明每一变量所用的度量尺度。 

a . 年销售额 

b . 软饮料规模 （小、 中、大） 

c . 雇员级别（从 1 级到 18 级） 

d . 每股盈利 

e . 支付方式（现金、支票和信用卡） 

12. 夏威夷旅游局收集了去夏威夷的旅游者的数据。下列问题是6月份在飞往夏威夷的航班上向 
乘客分发的问卷所征询的 16 个问题中的一部分。 

• 这次夏威夷之旅是 我的： 第一次、第二次、第三次、第四次，等等 
•这次旅行最主要的理 由是： （包括度假、惯例、蜜月等10项选择） 

• 预期 住所： （包括宾馆、公寓、亲戚、露营等11项选择） 

• 在夏威夷逗留的总天数 ' 

a . 所要研究的总体是什么？ 

b . 进行问卷调查是研究飞往夏威夷航班上的乘客这一总体的好方法吗？ 

c . 将上述 4 个问题中的每一个以定性数据或定量数据的方式加以区分。 

13. 图 1.8 是反映 1991— 1997 年间河船娱乐场数量的柱状图。 

a . 所给数据是定性的还是定量的？ 

b . 所给数据是截面数据还是时间序列数据？ 

c . 所感兴趣的变量是什么？ 

d . 分析发展趋势，您期望看到 1998 年是增长还是减弱？ 

14. 下列数据集提供了美国科技公司财务业绩的概况 （ Barron ’ 5 ， December 29, 1997) : 



1993年 

1994年 

1995年 

1996年 

每股盈利（美元） 

2.78 

2. 13 

3.41 

3. 83 

总收入 （10 亿美元） 

11. 87 

12.57 

13.43 

14.92 

净收入 （10 亿美元） 

1.51 

1. 17 

1.89 

2. 12 

每股售价（美元） 

14.35 

10.98 

12. 67 

13.98 
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1991 1992 1993 1994 1995 1996 1997 
图 1.8 美国的河船娱乐场 

资料 来源： 《华尔街日报》获准重新排印， 1997 年道琼斯公司授权可对全世界公开。 

a . 有多少变量？ 

b . 所给数据是定性的还是定量的？ 

c . 它们是截面数据还是时间序列数据，为什么？ 

15. 参见表 1.7 中《财富》500强企业的数据。它们是截面数据还是时间序列数据，为什么？ 

16. 您所在公司的营销部门提出了一种新型软饮料的销售计划，它声称要占领年轻人市场的大部 
分份额。 

a . 在作出将新产品投放市场、实际进行投资的决策之前，您需要看到什么数据？ 

b . 您认为上一问中的数据应如何获得？ 

17. 一家大公司的老总为有才干的下属加薪10000美元，以防止他们跳槽到别的公司。需要哪些 
内部和外部数据源来确定这样的增加工资的标准是否合适？ 

18. 在最近的一次对60岁及以上年龄段的男性死亡原因的研究中，一个120人的样本中有48人 
死于心脏疾病。 

a . 将此例扩充成一个描述性统计，以便用来估计60岁及以上年龄段的男性死于某种心脏疾病 
的百分比。 

b . 死亡原因的数据是定性的还是定量的？ 

c . 讨论统计推断在这类医疗保健研究中的作用。 

19. 《商业周刊》北美读者研究部1996年收集了 2861个读者的样本数据。根据反馈情况来看， 
有59%的读者的年收入是75 000美元，50%以上的读者持有美国运通卡。 

a . 该项研究中总体指的是什么？ 

b . 年收入是定性变量还是定量变量？ 
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c . 美国运通卡的持有者是定性变量还是定量变量？ 

d . 这一研究中用的是截面数据还是时间序列数据？ 

e . 说出《商业周刊》基于这一调查可能作出的所有统计推断。 

20. 对50 家公司使用浏览数据情况的调查发现了下列现象 （Mercer Management Consulting , Inc ., 
April 24, 1997): 

• ACNielson 占有 56% 的市场份额。 

• 对每一类顾客商品目录数据的年平均使用费是 387 325 美元。 

•按 1( 非常不满意）到 5( 非常满意）的等级标准，所有浏览数据用户的平均满意水平是 3. 73。 

a . 引用两种描述性统计方法表示此例。 

b . 对浏览数据所有用户这一总体的总的满意水平作出推断。 

c . 对浏览商品目录数据的平均支出水平作出大致的推断。 

21. 一 项为时 7 年的医药研究报告指出，母亲在怀孕期间服用过 DES 药物的那些妇女，她们的组 
织变异导致癌变的可能性要比母亲没有服用过此药的妇女高一倍。 

a . 该项研究包含了哪两个总体？ 

b . 你认为这些数据是调查获得的还是实验获得的？ 

c . 对母亲在怀孕期间服用过 DES 的这一妇女总体中做了 3980 位妇女的样本抽查，其中发现 63 
例，她们的组织变异可能导致癌变。给出一个描述性统计，可用来估计在这一总体中1000位 
妇女中患有组织变异的人数。 

d . 对母亲在怀孕期间未服用过 DES 的这一妇女总体， 1000 人中可能患有组织变异的期望值是 
多少？ 

e . 医疗研究中经常使用相对较大的样本 （此 例中是 3 980)， 为什么？ 

22. —企业有兴趣检验在一个新的商业电视活动中做广告的效果，因此在科罗拉多州府丹佛市下午 
6:30 的当地新闻节目中播出此次活动。两天后，市场研究企业进行了电话询问，获取重复收看率 
的信息（观众重复收看该节目的百分比）和对这次活动的印象。 

a . 这项研究中的总体是什么？ 

b . 这项研究中的样本是什么？ 

c . 为什么在这种情况中要用样本抽查，请解释。 

23. ACNielsen 机构对全美国进行每周一次的电视台节目收看调查， ACNielsen 的统计数字显示每一 
主要电视节目的观众数目，对电视节目和观众收视率进行排序，每周发布电视台排行榜。 

a . ACNielsen 机构想了解什么？ 

b . 总体是什么？ 

c . 为什么在这种情况中要用样本抽查？ 

d . 哪种决策和行动需要以 ACNielsen 的研究为基础？ 

24. 5 名学生的期中考试成绩的样本值如下 :72,65,82,90,76。 下列表述中哪一个是正确的，哪一个 
看起来太空泛？ 
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a . 5名学生这一样本的期中平均成绩是77。 

b . 参加这次考试的所有学生的平均成绩是77。 

c . 参加这次考试的所有学生的平均成缋的估计值是 77 o 

d . 一大半参加这次考试的学生的成绩是在70—85之间。 

e . 如果这一样本还包括其他5名学生，他们的分数将在65—90之间。 




描述性 统计: 表格法和图形法 


统计实例 :高露 洁一棕榄公司 
2.1 汇总定性数据 

频数分布 

相对频数和百分比频数分布 
柱状图和饼形图 
2. 2汇总定量数据 
频数分布 

相对频数和百分比频数分布 

点位图 

直方图 

累积分布 

累积曲线 

2.3 探索性数据分 析:茎 叶显示 
2. 4交叉分组列表和散点图 

交叉分组列表 
散点图 
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觀議 


高露洁一掠榄公司* 

纽约市，纽约州 

高露洁一掠揽公司 （ Colgate-Palmolive Company) 
于 1806 年在纽约城开张的时候，还只是一个小小的 
肥皂和蜡烛商店。但今夭，它已经是一家产品遍布世 
界 200 多个国家和地区、年销售额 90 亿美元的大公 
司。该公司最著名的商标是高露洁、棕揽、 Ajax 和 
Fab, 同时也经营希尔斯科学食品 （ Hill’s Science Diet) 
和希尔斯传统食品 （ Hill ’ s Prescription Diet ) 等产品。 

高露洁一棕榄公司在其家用洗衣粉产品的生产 
过程质量保证程序中使用了统计学方法。质量保证 
中的一个关键问题是顾客对于盒子中洗衣粉数量的 
满意度。同一尺寸的每一个盒子都按重量装入同样 
数量的洗衣粉，但洗衣粉所占的体积受洗衣粉密度 
的影响。例如，如果洗衣粉密度较大的话，要达到所 
规定的包装重量就只需较小体积的洗衣粉。这样，当 
顾客打开包装盒时，盒子看上去显然未满。 

为了控制洗衣粉密度过大的问题，需要对洗衣 
粉密度的可接受范围进行限定。首先由质检人员定 
期地抽取统计样本，并测量每个洗衣粉样本的密度。 
然后将数据汇总提供给操作人员，以便在需要将密 
度保持在规定的质量规格内时，操作人员可以采取 
正确的措施。 

每周抽取一次得到的 150 个样本的密度值频数 
分布和直方图显示在所附的表和图中。超过 0.40 的 
密度水平即为不可接受的上限。频数分布和直方图 
显示出工艺操作符合质量标准，所有产品的密度都 
小于或等于 0. 40 。检查统计汇总结果的经理将对洗 
衣粉产品的质量感到高兴。 

在本章中，你将学习诸如频数分布、柱状图、直 

* 作者感谢高露洁一棕榄公司的质量保证经理 William 
R. Fowle 提供了该案例。 
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统计汇总有助于保持这些高露洁一棕榄产品的质量 。 ® 
Joe Higgins/ South-Western. 

方图、茎叶显示、交叉分组列表以及其他一些属于描 
述性统计的表格和图形方法。这些方法的目的是汇 
总数据，以使得数据更易于人们理解。 


密度数据的频数分布 


密度 


频数 


0. 29 一 0. 30 
0.31—0.32 
0. 33 一 0. 34 
0. 35—0. 36 
0. 37 — 0. 38 
0. 39 — 0. 40 


总计 


150 


密度数据的直方图 


接近于不合要 
求的 0.40 水平 
的样本不足 1% 


0.30 0.32 0.34 0.36 0.38 0.40 
密度 
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正如第1章所述，我们可以将数据分为定性数据和定量数据。 定性数据 (qualitative data ) 是一 
种 标记或名称，用来标识诸如项目之类事物的 类别； 而定量数据 (quantitative data ) 则是表示多少的 
数值。 

本章的目的是介绍通常用来汇总定性和定量数据的表格和图形方法。人们能在年度报告、报 
纸文章以及研究报告中发现数据表格和图形汇总，每一个人都会面对这些类型的表述。因此，理 
解它们是怎样形成的以及应如何解释它们是至关重要的。我们从有关单变量汇总数据的图表方法 
开始，在最后一部分还将介绍当牵涉到两变量间的关系时，用来汇总数据的方法。 

现代统计软件包拥有汇总数据和构建图形表述的强大功能， Minitab 和 Microsoft Excel 是其中 
应用最广泛的两个，在本章的附录中，我们将演示一些它们的具体功能。 


2.1 汇总定性数据 


频数分布 

我们从定义频 数分布 (frequency distribution ) 开始，讨论如何使用图表方法来汇总定性数据这一 
问题。 

频数分布 

频数分布是一种数据的表格汇总，表示在几个互不重叠组别中每一组苞含的项目个数（即 
频数)。 

我们引用下面的例子，来说明如何构建和解释定性数据的频数分布。根据 Z ) ige 对的 
资料 ， Coke Classic > Diet Coke 、 Dr . Pepper 、 Pepsi-Cola 和 Sprite 是软饮料销售量排行的前 5 名 
(The Wall Street Journal Almanac , 1998)。 假设表 2. 1 中的数据表示在只选择这 5 种软饮料的情况 
下，抽取的50次软饮料购买样本。 


表 2.1 来自5 0次软饮料购买样本的数据 

Coke Classic 
Diet Coke 
Pepsi-Cola 
Diet Coke 
Coke Classic 
Coke Classic 
Dr. Pepper 
Diet Coke 
Pepsi-Cola 


Sprite 

Pepsi-Cola 

Coke Classic 

Coke Classic 

Diet Coke 

Coke Classic 

Coke Classic 

Coke Classic 

Diet Coke 

Pepsi-Cola 

Coke Classic 

Dr. Pepper 

Sprite 

Coke Classic 

Pepsi-Cola 

Diet Coke 

Coke Classic 

Pepsi-Cola 



CD 光盘数据 
Soft Drink 
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(续表) 


Pepsi-Cola 

Coke Classic 

Pepsi-Cola 

Coke Classic 

Coke Classic 

Pepsi-Cola 

Dr. Pepper 

Pepsi-Cola 

Pepsi-Cola 

Sprite 

Coke Classic 

Coke Classic 

Coke Classic 

Sprite 

Dr. Pepper 

Diet Coke 

Dr. Pepper 

Pepsi-Cola 

Coke Classic 

Pepsi-Cola 

Sprite 

Coke Classic 

Diet Coke 



表 2. 2 软饮料购买次数的频数分布 


软饮料 

频数 

Coke Classic 

19 

Diet Coke 

8 

Dr. Pepper 

5 

Pepsi-Cola 

13 

Sprite 

5 

总计 

50 


为把这些数据构成一个频数分布，我们将表 2.1 中每一种 
软饮料出现的次数累加起来 。 Coke Classic 共出现19次 ， Diet 
Coke 8次， Dr . Pepper 岀现5次， Pepsi-Cola 出现 13次，而 
Sprite 出现5次。这些加总值被概括在表 2. 2的频数分布中。 

这个频数分布汇总说明了这50次软饮料购买是怎样分配 
给以上5种软饮料的，它提供了比表 2. 1中的原始数据更多的 
内涵。观察一下该频数分布，我们看到 Coke Classic 排在首 
位， Pepsi-Cola 随后 ， Diet Coke 位居第三， Dr . Pepper 和 Sprite 
并列第四。频数分布还揭示了这5种销量最高的软饮料相对受 


欢迎程度的信息。 


相对频数和百分比频数分布 


频数分布表示在几个互不重叠组别中每一组所包含的项目个数(频数）。可是，我们往往对每 
一组的项目个数所占的比例或者是百分比更感兴趣。一组的相对频数分布就是一组的项目个数所 
占的比例。对于一个具有 n 个观察值的数据集，可计算每组的相对频数 如下： 


相对频数 




每-组的概赚=缉内项目的频数 

n 

(2.1) 


每一组的 百分比频数是 相对频数乘以100。 

相对频数分布 (relative frequency distributioh ) 是表示每一组的相对频数数据的表格汇总。 百分 
比频数分布 (percent frequency distribution )是表示每一组的百分比频数数据的表格汇总。表 2.3 列 
示了软饮料数据的相对频数分布和百分比频数分布。在表 2.3 中，我们看到 Coke Classic 的相对频 
数是19/50=0.38, Diet Coke 的相对频数是8/50 =0.16,其他依此类推。从百分比频数分布中， 
我们看到购买的软饮料有38%是 Coke Classic , 有16%是 Diet Coke , 等等。我们还注意到前三名 
的软饮料占据了 38% +26% +16% =80%的份额。 
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表 Z 3 软饮料购买的相对频数和百分比频数分布 


软饮料 

相对频数 

百分比频数 

Coke Classic 

0.38 

38 

Diet Coke 

0. 16 

16 

Dr. Pepper 

0. 10 

10 

Pepsi-Cola 

0. 26 

26 

Sprite 

0. 10 

10 

总计 

1.00 

100 


柱状图和饼形图 

柱状图 （bar graph ) 是一种图形方法，用于描述已被汇总为频数分布、相对频蠢分布或者百分 
比频数分布的数据。在图的一个轴（通常是横轴）上，我们规定了用来对数据分组(类）的标记。 
在图的另一坐标轴（通常是纵轴）上标有频数、相对频数或者百分比频数的刻度。然后，利用一 
个位于每一组标记之上的固定宽度的柱，将这个柱的长度延伸，使之达到该组的频数、相对频 
数、百分比频数的数值。对于定性数据，应将这些柱互相隔开，以强调每组都是互相独立的这一 
事实。图 2.1 就是一个反映了 50次软饮料购买情况的频数分布的柱状图。注意图形是怎样显示出 
Coke Classic 、 Pepsi - Cola 和 Diet Coke 三种哪种是最受欢迎的。 


在质量控制应用中，柱状图用于识别问题的最重要原因。当这些柱按照高度降 
低的顺序从左向右依次排列时，最经常出现的原因将排在第一位，这种柱状图被称为 
帕累托 ( Pareto ) 图。它是以它的创立者意大利经济学家维尔福来多 • 帕累托 (Vilfredo 
Pareto ) 的名字命名的。 


20 , 



Classic Coke Pepper Cola 

软饮料 

图 2.1 软饮料购买情况的柱状图 


饼形图 （pie chart ) 是另一种表示相对频数和百分比频数分布的图形方法。为构建饼形图，我们 
首先画一个圆来代表所有的数据，然后再利用相对频数把一个圆分割为几部分，使每部分对应于 
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每一组的相对频数。例如，因为一个圆有360°，而 Coke Classic 的相对频数为0.38,于是饼形图 
中代表 Coke Classic 的部分占有 0.38 x 360°= 136. 8°, 而代表 Diet Coke 的部分占有 0. 16 x 360。= 
57.6°。对其他组别进行同样计算，就产生了图 2.2 中的饼形图。饼形图中每一部分所显示的数值 
既可以是频数，也可以是相对频数，或者百分比频数。 



图 2. 2 软饮料购买情况的饼形图 



1. 在一个频数分布中，组别数往往与在数据中 
发现的类别数是相同的，就像在本章软饮料 
购买数据中的情况一样。数据类别只包括5 
种软饮料，一个独立的频数分布组别被定义 
为一种软饮料。包括所有软饮料的数据将需 
要很多类，其中的大部分类别会只有很少的 
购买次数。大多数统计学家建议把只有很少 


频数的组合并到一个叫“其他”的综合组中 
去。只有5%或更少频数的组常常被这样处 
理。 

2. 在任何频数分布中，频数的总和总是等于观 
察值的士目。在任何相对频数分布中，相对 
频数的总和总是等于1.00,在任何百分比频 
数分布中，百分数的总和总是等于100。 



方法 

1. 某问题的答案有三种 选项： A 、 B 和 C 。 一个拥有120个答案的样本包括60个 A , 24个 B , 36 
个 C 。 求出它的频数和相对频数分布。 
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2. 已给出一部分相对频数分布 如下： 

组别 
A 
B 
C 
D 

a . D 组的相对频数是多少？ 

b . 如果总的样本容量是200，那么 D 组的频数是多少？ 

C. 求出频数分布 。 

d . 求出百分比频数分布。 

3. —份问卷调查表的答案中包括58个“是”，42个“不”，20个未表示意见。 
II ，，3> a . 在构建饼形图时，表示“是”答案的部分占多少？ 

b . 表示“不”答案的部分占多少？ 

c . 作出饼形图。 

d . 作出柱状图。 


相对频数 
0.22 
0. 18 
0.40 


应用 


4. 



CD 光盘数据 
Nielsen 


根据 Nielsen 媒体研究的数据，2000年4月6日晚8: 00收视率最高的4个节目是紹/- 
lionaire 、 Frasier、Chicago Hope 和 Charmed ( USA Today , April 13, 2000)。 一个包括 50 
名观众的样本数据如下： 


Millionaire 

Millionaire 

Millionaire 

Frasier 

Charmed 

Frasier 

Frasier 

Millionaire 

Millionaire 

Frasier 

Frasier 

Millionaire 

Millionaire 

Chicago Hope 

Millionaire 

Charmed 

Millionaire 

Frasier 

Chicago Hope 

Millionaire 

Chicago Hope 

Charmed 

Frasier 

Frasier 

Millionaire 

Millionaire 

Frasier 

Millionaire 

Millionaire 

Chicago Hope 

Frasier 

Millionaire 

Millionaire 

Charmed 

Chicago Hope 

Chicago Hope 

Millionaire 

Millionaire 

Millionaire 

Millionaire 

Frasier 

Frasier 

Millionaire 

Frasier 

Frasier 

Millionaire 

Millionaire 

Chicago Hope 

Millionaire 

Frasier 


a . 这些数据是定性的还是定量的？ 

b . 作出数据的频数分布和百分比频数分布。 

c . 作出数据的柱状图和饼形图。 

d . 从样本分析看，哪一个节目拥有最大市场份额？哪一个位居第二? 
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5. 进入东方大学商学院的新生被要求列出他们喜欢的专业，结果得到下列 数据: 


专业 

管理 

会计 

金融 

营销 

通过构建如下项目来汇总 数据： 

a . 相对频数分布和百分比频数分布。 

b . 柱状图。 

c . 饼形图。 


数目 

55 

51 

28 

82 


6 . 



CD 光盘数据 


BwBooks 


表 2.4 列出了八种2000年2月销售最好的精装商务图书 （Buiiess Week , April 3, 
2000)。假设一个在科罗拉多丹佛地区取得的购书样本提供了这八种书的下列 数据： 


1 Habits 

Dad 

Motley 

Millionaire 

Millionaire 

Motley 

Dad 

7 Habits 

Motley 

WSJ Guide 

Millionaire 

7 Habits 

Motley 

7 Habits 

7 Habits 

WSJ Guide 

Motley 

Motley 

Millionaire 

Millionaire 


7 Habits 

Millionaire 

Tax Guide 

7 Habits 

Dad 

Dad 

WSJ Guide 

WSJ Guide 

Millionaire 

7 Habits 

Millionaire 

7 Habits 

Dad 

Dad 

Tax Guide 

Millionaire 

Millionaire 

Millionaire 

Millionaire 

Dad 


Millionaire 

WSJ Guide 

Dad 

Dummies 

Parachute 

Dad 

WSJ Guide 

7 Habits 

Millionaire 

Millionaire 

Motley 

Motley 

Dad 

Dad 

Motley 

Tax Guide 

Dad 

Dummies 

Millionaire 

Dad 


a . 作出数据的频数分布和百分比频数分布。把所有频数在5%或者以下的图书》归入一 
个“其他”组中。 

b . 列出最畅销的图书。 

c . The Millionaire Next Door 和 Rich Dad , Poor Dad 的销售百分比分别是多少？ 


表 2. 4 销售最好的八种精装商务图书 

• The 7 Habits of Highly Effective People 

• Investing for Dummies 

• The Ernst & Young Tax Guide 2000 

• The Millionaire Next Door 

• The Motley Fool Investment Guide 

• Rich Dad，Poor Dad 

• The Wall Street Journal Guide to Understanding Money and Investing 

• What Color is Your Parachute? 2000 
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7. 佛罗里达州 Maderia 海滨的 Leverock’s Waterfront Steakhouse 使用一种问卷调查表来询 

问顾客对于餐馆的服务、食品质量、鸡尾酒、价格和气氛是如何评价的。对每一个属 
性分别以优异(0)、非常好( V )、好 ( G )、 一般 ( A ) 和差 ( P ) 的标准来评价。利用描述性 
统计汇总有关食品质量的下列数据，你对该餐馆的食品质量如何评价？ 


G0VGA0V0VG0VA 

V0PV0GA000G0V 

VAG0VPV00G00V 

0GA0V00GVAG 


8. —个样本包括纽约 Cooperstown 棒球名人堂的55名成员，他们的场上位置数据如下。每一个观 
察值表示他们所担任的首要 位置： 投手 （ P ) 、接手 （ H ) 、一垒 （1) 、二垒 （2) 、三垒 

(3) 、游击手 （ S ) 、左场 （ L ) 、中场 （ C ) 、右场（ II )。 

LPCH2PR1 SS 1 LPRP 
PPPRCSLRPCCPPRP 
23PHLP1CPPPS1LR 
R12HS3H2LP 

a . 使用频数分布和相对频数分布来汇总数据。 

b . 什么位置造就的荣誉成员最多？ 

c . 什么位置造就的荣誉成员最少？ 

d . 哪一个外场位置 ( L ， C 或 R ) 造就的荣誉成员最多？ 

e . 比较内场成员（1，2, 3和 S ) 和外场成员 （ L ， C 和 R )。 

9. 电子协会的雇员执行弹性工作时间，他们可以选择上午7:00、7:30、8:00、&30或者9:00上 
班。下列数据来自一个雇员们选择的上班时间的样本： 


7:00 

8:30 

9:00 

8:00 

7:30 

7:30 

8:30 

8 ： 30 

7:30 

7:00 

8:30 

8:30 

8:00 

8:00 

7:30 

8: 30 

7:00 

9:00 

8: 30 

8:00 


构建下列项目以汇总 数据： 

a . 频数分布。 

b . 百分比频数分布。 

c . 柱状图。 

d . 饼形图。 

e . 关于在弹性工作时间制度下雇员的偏好，数据汇总显示了什么结果？ 

10. 辛辛那提大学工商管理学院的学生被要求在完成其课程后填写一个课程评估问卷调查表，它包 
括一系列问题，答案分为五个 档次： 

S 1 异 非常好 
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其中的一个问题为：与你已经完成的其他课程比较，你刚刚完成的这门课程的综合质量怎 
样？ 一个样本由60名刚刚完成2000年春季学期商务统计课程的学生组成，它给出了下列答 
案，为了便于进行计算机处理，使用了数值来表示调查结果，其中 ， 1 =差，2 =—般 ， 3 = 
好 ， 4 =非常好，5 =优异。 


3 4 4 5 1 

4 5 5 4 1 

5 5 3 4 5 

4 3 5 4 5 


5 3 4 5 2 

4 5 4 2 5 

5 2 4 3 4 

4 3 5 3 4 


4 5 3 4 4 

4 2 4 4 4 

5 4 3 5 4 

4 3 5 3 3 


a . 说明这些数据为什么是定性数据。 

b . 作出数据汇总的频数分布和相对频数分布。 

c . 作出数据汇总的柱状图和饼形图。 

d . 在你汇总的基础上，说明学生对这门课程的综合评价。 


2.2 汇总定量数据 


频数分布 

正如 2. 1节所定义的那样，频数分布是表示在几个互不重叠组别中每一组所包含的项目个数 
(频数）的表格汇总。这个定义也适用于定量数据。不过对于定量数据，我们在定义用于频数分布 
的互不重叠分组时，不得不更加小心。 

例如，考虑表 2. 5中的定量数据。一个样本包括一个小会计师事 
务所 Sanderson and Clifford 的20个客户，数据表示完成样本的年末审 
计时间（天）。为定义定量数据的频数分布中组的概念，需要下列三个 
步骤： 

1. 确定互不重叠分组的数目。 

2. 确定每一组的宽度。 

3. 确定组限。 

我们通过对表 2.5 中的审计时间数据进行处理以构建频数分布， 
从而说明这些步骤。 

组数 (number of classes )。 组是通过对数据规定范围而形成的。作为一般性原则，我们建议使 
用5—20个组。对于较少的数据项目，5或6组就可以汇总数据了。而对于较多的数据项目，通 
常需要更多的组数。最终的目的就是使用足够的组来显示数据的变异程度，而不是使用很多个组 
以致每个组内只含有很少的数据项目。因为表 2.5 中的数据项目的个数相对较少 （n = 20)， 我们 


表 2. 5 年末审计时间 （天 ) 


12 

14 

19 

18 

15 

15 

18 

17 

20 

27 

22 

23 

22 

21 

33 

28 

14 

18 

16 

13 



CD 光盘数据 


Audit 
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决定使用5个组来构建频数分布。 

组宽 (width of the classes )。 构建定量数据频数分布的第二步是选择组宽。作为一般性原则，我 
们建议每一组的宽度应相同，因此对组数和组宽的选择就不再是互相独立的决定了。较大的组数 
意味着较小的组宽，反之亦然。为确定一个近似的组宽，我们从找到数据的最大值和最小值开 
始。然后，一旦确定了期望的组数，我们就能够使用如下表达式来确定近似组宽。 


每组的宽度相同减少了使用者的不恰当解释。 


近似组宽= 邏 • 最 ，且 数数据 最小值 ( 2 .2) 

由公式 (2.2) 得出的近似组宽可以根据构建频数分布的那个人的意愿取整为更方便的值。例如 ，一 
个 9. 28的近似组宽可以被简单地取整为10,因为10作为组宽在构建和表达频数分布时更方便。 

对于年末审计时间数据，最大值是33,最小值为12。因为我们决定用5个组来汇总数据，由 
公式(2.2)，可计算近似组宽为 （33-12)/5 = 4.2。因此我们决定在频数分布中使用5天作为组 
宽。 

在实践应用中，组数和近似的组宽要用试误法确定。一旦选定了一个可能的组数，就根据公 
式 (2.2) 找出近似组宽。这个过程能对不同的组数反复进行。最终，分析者凭判断来确定组数和组 
宽的组合，以构建汇总数据的最佳频数分布。 


对数据集来讲，不存在一个最佳频数分布。不同的人可以构建不同的频数分 
布，都能被接受。频数分布的目的是揭示出自然的分组和数据的差异。 


对于表 2. 5中的审计时间数据，在决定了使用5个组别，每一组具有5天的组宽之后，下一 
步工作就是规定每一组的组限。 

组限 (class limits )。 必须要选择组限以确保每个数据项目属于且只属于一个组别。组下限是被 
分到该组的数据的最小可能值，组上限是被分到该组的数据的最大可能值。在对定性数据构建频 
数分布的过程当中，我们不需要规定组限，因为每一个数据项都会自然地落人一个互不重叠的组 
(类）中。但是对于定量数据，比如表 2.5 中的审计时间，组限就是必要的，以确定每个数据值究 
竟属于哪一组。 

对于表 2.5 中的审计时间数据，我们确定组限是 10— 14，15—19, 20—24, 25—29, 30— 
34。最小数据值12就包括在10—14组中，而最大数据值33包括在30 — 34组中。对于10—14 
组，10是组下限，14是组上限。相邻两组的组下限之差就是组宽。使用头两个组下限10和15来 
计算，组宽是 15-10 = 5 o 

一旦组数、组宽、组限都已确定，我们通过清点每一组中数据的个数就可以得到频数分布。 
例如，表 2.5 中的数据 显示： 4个数据值——12, 14, 14, 13属于10 —14组。因此， 10—14 组 

的频数是4。对15—19, 20—24, 25—29 , 30 — 34各组继续清点计数过程，就得到了表 2.6 中的 
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表 2. 6审计时间数据的频数分布 


审计时间（天） 

频数 

10 — 14 

4 

15 — 19 

8 

20 — 24 

5 

25 — 29 

2 

30 — 34 

J 

总计 

20 


频数分布。利用这个频数分布，我们能够观 察到： 

1. 最频繁发生的审计时间处于 15— 19天这一组，在20 
个审计时间中有8个属于这一组。 

2. 只有一次审计花了 30天或更多时间。 

得出其他结论也有可能，这取决于频数分布观察者的兴 
趣。频数分布的价值就在于它提供了对数据的深刻理解，而直 
接观察原始的未经组织的数据，是无法获得这种深刻理解的。 


组中值 (class midpoint ) 。在一些应用中，我们需要知道定量数据频数分布的组中点。 组中值 


是组下限和组上限的中间值。对于审计时间数据，五个组中值分别是12,17,22,27和32。 


相对频数和百分比频数分布 

我们以定义定性数据时同样的方式来定义定量数据的相对频数和百分比频数分布。首先，我 
们已知相对频数就是一个组的观察值个数占总数的比例。对于 n 个观察值， 

组的相对频数=_ 组内频蓋 

TI 


组的百分比频数等于相对频数乘以100。 

根据表 2.6 中的频数且当 n = 20 时，表 2.7 显示了审计时间数据的相对频数和百分比频数分 
布。注意到对于所有的审计，有 0.40 或40%需要 15— 19天时间。只有 0.05 或5%的审计需要 
30天或更多时间。通过使用表 2. 7,我们还能够得到其他的解释和理解。 


表 2. 7 审计时间数据的相对频数和百分比频数分布 


审计天数 

相对频数 

百分比频数 

10 — 14 

0.20 

20 

15 — 19 

0.40 

40 

20 一 24 

0.25 

25 

25 — 29 

0. 10 

10 

30 — 34 

0.05 

J 


总计 1.00 

100 


点位图 

最简单的数据图形汇总之一就是 点位图 （ dotplot )。 它的横轴表示观察值的取值范围，每一个 
观察值由位于横轴之上的点表示。图 2. 3是表 2. 5中审计时间数据的点位图，位于横轴刻度18之 
上的3个点指出有3个观察值的数值等于18。点位图能够显示数据的细节，它对于比较两个或更 
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多个变量的数据分布是有用的。 




• 




• 

1 

• • 

• • • • 

1 

• 

• • i 

• 

» • • • • • 

1 1 

• 

1 

• 

i 

10 

15 


20 25 

30 

35 




审计时间 （天） 




图 2. 3审计时间数据的点位图 


直方图 

一个常用的定量数据图形表达方式是 直方图 ( histogram )。 这种图形可以由任何形式的频数数 
据构建，而不论这些数据先前是被汇总为频数分布、相对频数分布还是百分比频数分布。把有关 
的变量设置为横轴，把频数、相对频数或百分比频数设置为纵轴，我们就可以作出一个直方图。 
在横轴之上画一个长方形，它以横轴上的组间距为底，以该组对应的频数、相对频数或百分比频 
数为高，就能够表示岀每一组的频数、相对频数或百分比频数。 ' 

图 2. 4是审计时间数据的直方图。我们可以注意到具有最大频数的那个组由15—19天这一组 
上面的长方形表示，长方形的高度表示本组的频数是8。本例中由相对频数或百分比频数分布表 
示的直方图与图 2.4 中的直方图看上去基本相同，只是纵轴换成了相对或百分比频数值。 

如图 2.4 所示，直方图中的相邻长方形互相接触。与柱状图不同，直方图中相邻组的长方形 
之间没有自然的分隔，这种格式是直方图的惯例。因为审计时间数据的组限为 10— 14, 15—19, 
20—24, 25—29, 30—34，各组间从14到15、19到20、24到25,以及29到30有一个单位的 
间隔，可以通过在组限间的中点位置画直方图的垂线而消除这个间隔。在图 2.4 中分隔各组的直 
方图垂线分别在9.5, 14.5, 19.5, 24.5, 29.5 和 34.5 处。这个微调消除了直方图中组间的间 
隔，从而有助于 表明： 虽然数据经过了取整，但在第一组的下限和最后一组的上限之间数据取任 

■ 

— 1 

_ 

10 15 20 25 30 35 

审计时间（天） 


何值都是可能的。 


频 

数 


图 2. 4 审计时间数据的直方图 
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累积分布 

作为频数分布的一种变化形式， 累积频数分布 (cumulative frequency distribution ) 提供了定量数 
据的另一种表格汇总方法。累积频数分布也使用组数、组宽、组限这些要素来构建频数分布。但 
是，累积频数分布表示的是其数值 小于或等于每一组上 限的数据项的个数，而不是每一组的数据 
个数。表 2. 8的前两列给出了审计时间数据的累积频数分布。 


表 2. 8 审计时间数据的累积频数、累积相对频数和累积百分比频数分布 


审计时间 （天} 

累积频数 

累积相对频数 

累积百分比频数 

小于或等于14 

4 

0. 20 

20 

小于或等于19 

12 

0.60 

60 

小于或等于24 

17 

0. 85 

85 

小于或等于29 

19 

0. 95 

95 

小于或等于34 

20 

1.00 

100 


为了理解如何确定累积频数，考虑一个被描述为“小于或等于24” 的组。对数据值小于或等 
于24的所有组别的频数求和，即可得出该组的累积频数。对于表 2.6 中的频数分布，组 10— 
14， 15— 19和20—24的频数之和表示共有4 + 8+5 = 17个数据值小于或等于24。因此，该组的 
累积频数分布就是17。另外，表 2. 8中的累积频数分布指出有4次审计在14天内完成，有19次 
审计在29天内结束。 

最后，我们注意到 累积相对频数分布 (cumulative relative frequency distribution ) 表示的是数据个 
数占总数的比例， 累积百分比频数分布 (cumulative percent frequency distribution ) 表示数值小于或等 
于每组上限的数据个数所占的百分比。我们既可以对相对频数分布的相对频数求和，也可以将累 
积频数除以数据总数，从而计算得到累积相对频数分布。如果使用后一种方法，我们发现表 2. 8 
第3列的累积相对频数等于第2列的累积频数除以数据总数20)。累积百分比频数是由累积 
相对频数乘以100得出的。累积相对频数和百分比频数分布显示出有 0. 85或85%的审计在24天 
内完成，而有 0.95 或95%的审计在29天内结束，如此等等。 


累积曲线 

累积分布的图形中有一种被称为累 积曲线 （ ogive )。 数据值显示在横轴上，而累积频数、累积相 
对频数或累积百分比频数显示在纵轴上。图 2. 5就是表 2. 8中审计时间数据累积频数的累积曲线。 

我们通过画出每个对应于每组累积频数的点，就可以得到累积曲线。因为审计时间数据的组 
限分别是10—14, 15—19，20—24等，在14一15，19—20等之间有一个单位的间隔。正如我们 
在直方图中的处理方法一样，通过在两个组限的中点取点，可以消除这些间隔。因此， 14. 5用于 
10 —14组， 19.5 用于 15—19 组，依此类推。“小于或等于14” 这一组的累积频数为4,它在图 2.5 
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的累积曲线上所对应的点的横坐标是14.5,纵坐标是4。“小于或等于19” 这一组的累积频数为 
12,它所对应的点的横坐标是19.5,纵坐标是12。我们注意到还有一个额外的点位于累积曲线的 
最左端，这个点是曲线的起点，它表明没有数据值处于10 — 14组以下。它的横坐标是9.5,纵坐 
标等于0。将作出的点用直线连接起来，就完成了累积曲线。 



审计时间（天） 

图 2. 5 审计时间数据的累积曲线 



1. 对于定量数据而言，组限的恰当值依赖于数 
据的精确水平。例如，对表 2.5 中的审计时间 
数据，因为数据已经被取整到最接近的天数， 
因此使用的组限是整数。如果数据被取到最 
接近的1/10天（如 12.3,14.4 等等），那么组 
限也将以1/10天来表示，例如，第一组组限 
将会是 10.0 — 14. 9。如果数据被取到最接近 
的1/100天（如 12. 34,14.45 等等），组限也 
会以1/100天来表示，例如，第一组的组限将 
会是 10.00—14.99。 

2. 开口组 是指只有组下限或只有组上限的组^ 
例如，在表 2.5 中的审计时间数据内，假设两 
次审计分别用了 58和65天。以5为组宽把组 
区间延伸至 35— ~39,40 —44,45—49等等。我 
们能够通过使用一个“35或更长时间”的开口 
组来简化频数分布，该组的频数为2。开口组 


最经常出现在分布的上端，但有时也出现在下 
端，偶尔在两端都出现。 

3. 累积频数分布的最后一个数据项总是观察值 
的合计数，累积相对频数分布的最后一个数 
据项总是 1.00, 而累积百分比频数分布的最 
后一个数据项总是100。 

4. 柱状图和直方图基本上是同一事物，它们都 
是频数分布数据的图形表示。直方图就是各条 
之间没有间隔的柱状图。各柱之间的间隔适合 
于定性数据，因为定性数据是离散的，不存在 
中间值。而对于一些定量数据，各柱之间的间 
隔也是合适的。例如，在学院中注册的学生的 
班级数。也可以假设数据只取整数值，像1.5, 
2 . 73这样的中间值是不存在的。而对于连续 
的定量数据，例如表 2.5 中的审计时间，使用 
柱间的间隔就不合适。 
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方法 

11. 考虑下列 数据: 


14 

21 

23 

21 

16 

19 

22 

25 

16 

16 

24 

24 

25 

19 

16 

19 

18 

19 

21 

12 

16 

17 

18 

23 

25 

20 

23 

16 

20 

19 

24 

26 

15 

22 

24 

20 

22 

24 

22 

20 


a . 以 12— 14， 15—17, 18—20, 21—23 和24—26为组限构造频数分布。 

b . 使用 （ a ) 中的组限构造相对频数和百分比频数分布。 


组别 
10一19 
20—29 
30—39 
40—49 
50—59 

构建累积频数和累积相对频数分布。 

13. 用练习12中的数据构建直方图和累积曲线< 

14. 考虑下列数据： 

8.9 10.2 11.5 7.8 10.0 12.2 13.5 14.1 10.0 

6. 8 9.5 11.5 11.2 14.9 7.5 10.0 6.0 15.8 

a . 作出点位图。 

b . 作出频数分布。 

c . 作出百分比频数分布。 


频数 

10 

14 

17 

7 

2 


12. 考虑下列频数 分布: 



自测题 


12.2 

11.5 
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应用 

11__ 一名办公室职员医生研究了到办公室来急诊的病人等待时间。下面是在一个月的时间 

内收集到的数据（等待时间以分 计）： 

自测题 

2 5 10 12 4 4 5 17 11 8 9 8 12 21 6 8 7 13 18 3 

使用 0 — 4, 5— 9等等来分组。 

a . 作出频数分布。 

b . 作出相对频数分布。 

c . 作出累积频数分布。 

d . 作出累积相对频数分布。 

e . 需要急诊的病人中等待时间在9分钟以内的人数占多大比例？ 

表 2. 9显示了从 Stock InvesterPro 数据库中采集的一个由25个计算机硬件公司组成的 
样本。 

a . 构建股票价格数据的表格汇总和直方图。 

b . 构建每股收益数据的表格汇总和直方图，并分析你的结果。 

表 2. 9 25 个计算机硬件公司的数据集 


16. 



CD 光盘数据 
Stocks 


公司 

股价 

机构持股 

价格 / 账面 

每股收益 



(%) 

价值 

( 美元 / 年 ) 

Amdahl 

12.31 

45.4 

2.49 

-2.49 

Auspex Systems 

11.00 

66. 1 

2. 22 

0. 85 

Compaq Computer 

65. 50 

83.0 

6. 84 

2. 01 

Data General 

35.94 

91.5 

4. 25 

1. 15 

Digi International 

15. 00 

33.4 

2.04 

-0.89 

Digital Equipment Corp. 

43.00 

58. 8 

1.92 

-2.93 

En Pointe Technologies 

14.25 

11. 8 

3.47 

0.80 

Equitrac 

16.25 

20.9 

2. 38 

0. 76 

Franklin Electronic Pbls. 

12. 88 

30.8 

1.41 

0. 82 

Gateway 2000 

39. 13 

36.0 

6.45 

1.74 

Hewlett- Packard 

61. 50 

50.2 

4.35 

2.64 

Ingram Micro 

28. 75 

14.4 

4. 53 

1,01 

Maxwell Technologies 

30.50 

26.5 

8.07 

0. 46 

MicroAge 

27. 19 

76.6 

2. 16 

1.25 

Micron Electronics 

16.31 

18. 8 

4.48 

1.06 
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( 续表 ) 


公司 

股价 

机构持股 

价格 / 账面 

每股收益 



(%) 

价值 

( 美元 / 年 ) 

Network Computing Devices 

11.88 

39.8 

3.34 

0. 15 

Pomeroy Computer Resource 

33.00 

56.9 

3.29 

1.81 

Sequent Computer Systems 

28. 19 

57.0 

2. 65 

0.36 

Silicon Graphics 

27.44 

63.0 

3.01 

0.44 

Southern Electronics 

15. 13 

41.9 

2. 46 

0.99 

Stratus Computer 

55.50 

77.2 

2. 48 

2. 52 

Sun Microsystems 

48.00 

59.3 

7,50 

1.67 

Tandem Computers 

34. 25 

61.3 

3.61 

1.02 

Tech Data 

38. 94 

82.3 

3- 80 

1.50 

Unisys 

11. 31 

34. 8 

16.64 

0.08 


资料来源 ： Stock Investor Pro , American Association of Individual Investors, August 31, 1997 0 


17. 国民航空公司接受电话订票。下面的数据来自一个包含20次电话订票的样本，表示它们的通 
话时间（以分钟计）。构建这些数据的频数分布和相对频数分布，并作出直方图。 

1 4.8 5.5 10.4 

3 3.5 4. 8 5. 8 

3 5.5 2.8 3.6 

9 6.6 7.8 10.5 

5 6.0 4.5 4.8 

Wageweb 对工资收入进行调查并在它的网站上公布了汇总结果。 Wageweb 根据 
2000年1月1日的工资收入数据，报道市场营销副总裁的年薪范围是85090美元 
一190 054美元（]^咕6^6. com ， April 12,2000)。假定下列数据就来自一个包括50个 
营销副总裁年薪的样本，数据的单位是千美元。 

145 95 148 112 132 


140 

162 

118 

170 

144 

145 

127 

148 

165 

138 

173 

113 

104 

141 

142 

116 

178 

123 

141 

138 

127 

143 

134 

136 

137 

155 

93 

102 

154 

142 

134 

165 

123 

124 

124 

138 

160 

157 

138 

131 

114 

135 

151 

138 

157 


18. 



CD 光盘数据 


Wageweb 
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a . 最低和最高年薪分别是多少？ 

b . 以15000美元为组宽，作出年薪数据的表格汇总 

c . 年薪在135000美元以内的副总裁占多大比例？ 

d . 年薪超过150000美元的副总裁的百分比是多少? 

e . 作出数据的直方图。 

19. 最近20天来工人生产的产品数量数据 如下： 


160 

170 

181 

156 

176 

148 

198 

179 

162 

150 

162 

156 

179 

178 

151 

157 

154 

179 

148 

156 


构建下列项目以汇总数据： 

a . 频数分布。 

b . 相对频数分布。 

c . 累积频数分布。 

d . 累积相对频数分布。 

e . 累积曲线。 

20. 美国人口普查局公布了美国人口的变化信息。下表是2000年7月1日美国人口年龄的百分比 
频数分布 （TTie World Almanac and Book of Facts 2000 ) : 


年龄 

百分比频数 

0—13 岁 

20.0 

14 一 17 岁 

5.7 

18— 24 岁 

9.6 

25—34 岁 

13.6 

35— 44 岁 

16.3 

45— 54 岁 

13.5 

55— 64 岁 

8.7 

65 岁或以上 

12.6 


100.0 


a . 34 岁以下人口所占的百分比是多少？ 

b . 25和54岁之间的人口百分比是多少？ 

c . 超过34岁的人口百分比是多少？ ' 

d . 已知总人口为 2.75 亿，那么有多少人年龄低于25岁？ 

e . 假设你相信在 55 — 64 岁这一组中有一半的人已退休，并且几乎所有超过65岁的人已经退 
休，估计退休人员的数目。 


21. 《尼尔森家庭技术报告 》 （Nielsen Home Technology Report ，February 20, 1996) 专门报道家用技 
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术，它的用户年龄在12岁以上。下列数据是在一个50人的样本中一周内使用个人电脑的小 时数: 



CD 光盘数据 
Computer 


4. 1 

1.5 

10.4 

3. 1 

4.8 

2.0 

4. 1 

4. 1 

8.8 

10.8 

2.8 

9.5 

7.2 

6. 1 

5.7 


5.9 

3.4 

5.7 

1.6 

6. 1 

14. 8 

5.4 

4.2 

3.9 

4. 1 

5.6 

4.3 

3.3 

7. 1 

10. 3 

12.9 

12. 1 

0.7 

4.0 

9.2 

5.9 

4.7 

3.9 

3.7 

3. 1 


3.0 

3.7 

11. 1 

3.5 

6.2 

7.6 

4.4 

5.7 

6. 1 

3. 1 


构建下列项目以汇总 数据： 

a . 频数分布（组宽为3小时）。 

b . 相对频数分布。 

c . 直方图。 


d . 累积曲线。 

e . 分析家庭个人电脑的使用情况，这些数据显示出了什么问题? 


2.3 探索性数据 分析： 茎叶显示 


探索性数据分析 (exploratory data analysis ) 技术包括简单的算术和易画的图形，它们可用于快 
速地汇总数据。其中有一种被称为茎 叶显示 ( stem - and-leaf display ) 的技术就能够同时显示等级顺序 
和数据集的形状。 

为了说明茎叶显示的使用，考虑表 2. 10的数据，它们是50名参加 Haskens 公司生产职位面 
试的人员对150个能力测试问题的回答结果，数据值显示的是被正确回答的问题个数。 


表 2. 10 在能力测试中被正确回答的问题个数 



CD 光盘数据 
ApTest 


112 

72 

69 

97 

107 

73 

92 

76 

86 

73 

126 

128 

118 

127 

124 

82 

104 

132 

134 

83 

92 

108 

96 

100 

92 

115 

76 

91 

102 

81 

95 

141 

81 

80 

106 

84 

119 

113 

98 

75 

68 

98 

115 

106 

95 

100 

85 

94 

106 

119 


为构建茎叶显示，我们首先把每个数据值的高位数字排在竖线的左边。而在竖线的右边，我 
们以每个观察值原来的记录顺序来记录每个数据值的最后一位，并把它们放在对应的高位数字同 
一行中。示例 如下： 
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6 9 8 

7 2 3 6 3 6 5 

8 6 2 3 1 1 0 4 5 

972262158.854 

10 748026606 ' 

11 2859359 

12 6 8 7 4 

13 2 4 

14 1 

经过这样组织数据以后，排列出每一行的数字等级顺序就相对简单了。排序后，产生了如下的茎 
叶显示： 

6 8 9 

7 2 3 3 5 6 6 

8 0 1 1 2 3 4 5 6 

912224556788 

10 002466678 

11 2355899 

12 4 6 7 8 

13 2 4 

14 I 1 

于是，竖线左边的数字（6, 7, 8, 9, 10, 11，12,13, 14) 形成了茎，而竖线右边的每个数字就是一个 
叶。例如，考虑第一行，6是茎值，8和9是两个 叶值： 

6 18 9 

它表示有两个数据的值其首位数字是6,叶值表示数据值是68和69。同样，对于第 二行： 

7 12 3 3 5 6 6 

它指出有6个数据的值首位数字是7,叶值表示数据值是72, 73, 73, 75, 76和76。 

为了把注意力集中到茎叶显示所显示出的形状上来，我们使用长方形围住每个茎的叶值。这 
样做，可得到 下图： 
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将该页逆时针旋转90°，所得到的图形与组别为 60 — 69, 70 — 79, 80 — 89等等的直方图 
很相似。 

即使茎叶显示有可能与直方图提供了相同的信息，它还是具有两个主要的 优点： 

1. 茎叶显示更易于手画。 

2. 在一个组内，由于茎和叶显示出了实际数据值，因此茎叶显示能比直方图提供更多的信息。 

正如频数分布或直方图没有绝对的组数一样，茎叶显示也没有绝对的行或茎数。如果我们认 
为原始的茎叶显示把数据过分浓缩了，我们能够把每个高位数字拆分为两个或更多的茎，从而很 
容易地扩展这个显示。例如，对每一个高位数字使用两个茎，我们把所有以0，1，2, 3, 4结尾 
的数据放在一行，而把所有以5, 6, 7, 8, 9结尾的数据放在另一行。下列扩展的茎叶显示说明 
了这种 方法： 

6 
7 

7 

8 
$ 

9 
9 

10 
10 
11 
11 
12 
12 
13 

13 

14 

在扩展的茎叶显示中，每当茎值被重复两次，则第一个茎值对应于叶值0—4， 

第二个茎值对应于叶值5— 9。 

注意到值 72, 73和73的叶值在0—4范围内，并且被列在茎值7的第一行里。值75, 76和 
76的叶值在5—9范围内，列在茎值7的第二行里。这个扩展的茎叶显示与组别为65—69, 70— 
74, 75—79等等的频数分布很类似。 

前面的例子说明了三位数数据的茎叶显示。对于超过三位数的数据，其茎叶显示也是可能 
的。例如，考虑下列数据，它们表示在15个星期中每个星期快餐店销售的汉堡包数量。 


8 9 

2 3 3 

5 6 6 

0 112 3 4 

5 6 

1 2 2 2 4 

5 5 6 7 8 8 

0 0 2 4 

6 6 6 7 8 

2 3 

5 5 8 9 9 

4 

6 7 8 

2 4 


f 
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1 565 1 852 1 644 1 766 

1 790 1 679 2 008 1 852 


这些数据的茎叶显示如下: 


叶单位=10 


15 

16 

17 

18 

19 

20 


6 

4 7 

3 6 9 

1 5 5 

1 5 6 

0 4 



1 888 1 912 2 044 

1 967 1 954 1 733 


1 812 


我们注意到在此处使用一位数来表示每一个叶值，并且每个观察值只有前三位数字被用来构 
建显示。在该显示的顶部，我们规定了叶值的单位= 10。为了说明如何解释该显示中的数值，考 
虑第一个茎值15，以及它的叶值6,把它们连起来，我们得到数156。要得到原始观察值的一个 
近似值，我们须把它乘以叶单位的值10。因此， 156 x 10 =1 560就是用来构建茎叶显示原始观察 
值的近似值。虽然从该茎叶显示得出精确数据是不可能的，但根据每个叶值使用一位数表示的惯 
例，可以保证我们用位数很多的数据也能构建出茎叶显示。对于叶单位没有给出的茎叶显示，我 
们就假设它等于1。 




在茎叶显示中使用一位数来表示每个叶。叶的单位表示为了得到原始数据的近 
似值，茎叶显示中的数值应乘上的数。叶单位可以是100，10, 1， 0.1 等等。 



方法 

22. 构建下列数据的茎叶 显示: 


70 

72 

75 64 

58 

83 80 

82 

76 

75 

68 65 

57 

78 85 

72 

23. 构建下列数据的茎叶 显示： 




it 旧 

自测题 u 

9.6 

10.4 7.5 

8.3 

10.5 10.0 


9.3 

8. 1 

7.7 7.5 

8.4 

6. 3 8. 8 
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24. 构建下列数据的茎叶显示，叶单位为10。 

1 161 1 206 1 478 1 300 1 604 1 725 1 361 1 422 

1 221 1 378 1 623 1 426 1 557 1 730 1 706 1 689 


应用 


25. 某心理学家发明了一种成人智力的新的测试方法。对20人进行了测试，取得如下 数据: 

繼:二 

自揀阅 114 99 131 124 117 102 106 127 119 115 

98 104 144 151 132 106 125 122 118 118 

构建数据的茎叶显示。 

26. 由20家公司组成的样本的每股收益数据来自《商业周刊》的公司业缋版 ( BusinessWeek ， 
November 17, 1997) ，数据如下： 


公司 

每股收益（美元） 

公司 

每股收益（美元） 

Barnes & Noble 

0.78 

Hershey Foods 

1.97 

Citicorp 

7. 10 

Hewlett-Packard 

2. 82 

Compaq Computer 

2. 16 

Humana 

0.89 

Dana 

3.42 

Microsoft 

2. 66 

Dell Computer 

2.03 

Procter & Gamble 

2. 53 

Digital Equipment 

1.28 

Quaker State 

0.41 

General Dynamics 

4. 82 

Sara Lee 

2. 08 

Goodyear 

0. 94 

Snap-On Tools 

2. 38 

Harley-Davidson 

1. 11 

Sunstrand 

2. 53 

Heinz 

0.98 

Xerox 

3.95 

构建数据的茎叶显示， 

把叶单位设为 0. 1。 

说明你从这些公司的每股收益数据中了解到了什 


么？ 


27. 



CD 光盘数据 
Job Sal 


在一个工作满意度研究中，对50个项目进行了一系列的测试。下面是取得的数据，其 
中较高的分数表示较大的不满意度。 


87 

76 

67 

58 

92 

59 

41 

50 

90 

75 

80 

81 

70 

73 

69 

61 

88 

46 

85 

97 

50 

47 

81 

87 

75 

60 

65 

92 

77 

71 

70 

74 

53 

43 

61 

89 

84 

83 

70 

46 

84 

76 

78 

64 

69 

76 

78 

67 

74 

64 




构建数据的茎叶显示。 
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28. 执 irro 的定期公布道琼斯工业股票平均指数成分股的盈利预测。下列数据就是由 Bar - 

5 盈利预测给出的这些公司的 2000 年市盈率 （ P / E ) 预测 （ Barron ’ s , February 14, 
薦)。 


CD 光盘数据 

2000 P/E 预测 

公司 

2000 P/E 预测 

PEforcast AT&T 

23 

Honeywell 

13 

Alcoa 

15 

IBM 

28 

American Express 

25 

Intel 

37 

Boeing 

16 

International Paper 

14 

Caterpillar 

13 

Johnson & Johnson 

23 

Citigroup 

17 

McDonald’s 

23 

Coca-Cola 

39 

Merck 

25 

Disney 

47 

Microsoft 

60 

Dupont 

18 

Minnesota Mining 

19 

Eastman Kodak 

11 

J. P. Morgan 

11 

Exxon/Mobil 

22 

Philip Morris 

5 

General Electric 

37 

Procter & Gamble 

26 

General Motors 

8 

SBC Comm. 

19 

Hewlett-Packard 

36 

United Technologies 

14 

Home Depot 

48 

Wal-Mart 

40 

a . 构建数据的茎叶显示。 



b . 用茎叶显示的结果来构建数据的频数分布和百分比频数分布。 



2.4 交叉分组列表和散点图 

本章到目前为止，我们已集中讨论了 在同一时间对一个变 量的数据进行汇总的表格和图形方 
法。但管理人员和决策者往往还对能够帮助 其理解两变量间关系 的表格和图形方法感兴趣。交叉 
分组列表和散点图就是两类这样的方法。 


交叉分组列表和散点图被用来揭示变量间的关系，以此来汇总数据。 



交叉分组列表 

交叉分组列表 ( crosstabulation ) 是一种能够同时汇总两个变量数据的方法。我们通过下面的应 
用来说明交叉分组列表的用途。 “ Zagat 饭店评论” （ Zagat’s Restaurant Review ) 是一个提供世界各地 
饭店数据的服务机构，它报告饭店各种变量的数据，例如饭店的质量等级、典型的食品价格等。 
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质量等级是定性数据，等级类型是好、非常好和优异。食品价格是定量变量，通常的变化范围是 
10美元一49美元。一个样本包括洛杉矶地区的300家饭店，收集了它们的质量等级和食品价格数 
据，表 2. 11列出了前10家饭店的数据。 

表 2. 11 洛杉矶饭店的质量等级和食品价格 



CD 光盘数据 


Restaurant 


饭店 

质量等级 

食品价格 ( 美元 ) 

1 

好 

18 

2 

非常好 

22 

3 

好 

28 

4 

优异 

38 

5 

非常好 

33 

6 

好 

28 

7 

非常好 

19 

8 

非常好 

11 

9 

非常好 

23 

10 

好 

13 


该应用案例的数据交叉分组列表如表 2. 12所示。左边和上部的标志规定了两变量的组别。在左 
边，行标志（好、非常好、优异）对应于质量等级变量的三个组。在上部，列标志 （10— 19美元，20—29 
美元，30—39美元，40—49美元)对应于食品价格变量的四个组。样本中的每个饭店都给出了质量等 
级和食品价格。因此，它们都与交叉分组列表中某一行和某一列的交叉单元相联系。例如，饭店5被 
鉴定为具有非常好的质量等级和33美元的食品价格。它属于表 2. 12中第2行和第3列的交叉单 
元。在构建交叉分组列表时，我们只需把属于交叉分组列表中每个单元的饭店数累加起来即可。 

表 2. 12 300 家洛杉矶饭店的质置等级和食品价格的交叉分组列表 


食品价格 


质置等级 

10—19 美元 

20 — 29 美元 

30 — 39 美元 

40 — 49 美元 

总计 

好 

42 

40 

2 

0 

84 

非常好 

34 

64 

46 

6 

150 

优异 

2 

14 

28 

22 

66 

总计 

78 

118 

76 

28 

300 


观察表 2. 12,我们看到样本中饭店的绝大部分 (64) 具有非常好的等级和处于 20-29 美元范 
围的食品价格。只有两个饭店具有优异等级的同时食品价格在10 —19美元之间，其他频数也可 
进行类似解释。另外，我们注意到交叉分组列表的右边和底部分别给出了质量等级和食品价格的 
频数分布。从右边的频数分布中，我们看到质量等级的数据显示出有84个好饭店，150个非常好 
饭店，以及66个优异饭店。同样，底部显示出食品价格变量的频数分布。 
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交叉分组列表的值提供了关于变量间关系的深刻含义。根据表 2. 12的结果，较高的食品价 
格与较高的质量等级相联系，而较低的食品价格对应于较低的质量等级。 

把表中的项目转换成行百分比或列百分比，还能够提供关于变量间关系的其他内容。对行百 
分比，用表 2. 12中的每个频数除以对应的行总量，其结果显示在表 2. 13中。例如，第一行和第一列 
交叉单元的百分值是50.0,它是由42除以84再乘以100得到的 (42/84 x 100 =50. 0% )。在最低质 
量等级（好）的饭店中，我们看到最大百分比的饭店是较便宜的饭店 （50. 0%具有10 —19 美元的食 
品价格， 47. 6%具有 20 — 29 美元的食品价格）。在最高质量等级(优异）的饭店中，我们看到最大比 
例的饭店是较昂贵的饭店 （42. 4%具有 30 — 39 美元的食品价格， 33. 4%具有40 — 49美元的食品 
价格）。因此，我们继续看到较贵的价格与较高的等级相联系。 

4 

表 2. 13 每一类质置等级的行百分比 


食品价格 


质量等级 

10 — 19 美元 

20 — 29 美元 

30— 39 美元 

40 一 49 美元 

总计 

好 

50.0 

47.6 

2.4 

0.0 

100 

非常好 

22.7 

42.7 

30.6 

4.0 

100 

优异 

3.0 

21.2 

42.4 

33.4 

100 


交叉分组列表被广泛地用作显示两变量间关系的工具。在实践中，许多统计调查的最终报告 
包括大量的交叉分组列表。在洛杉矶饭店样本里面，交叉分组列表是基于一个定性变量（质量等 
级）和一个定量变量（食品价格）构建的。当所有的变量都是定性或定量变量时，同样也能够构 
建出交叉分组列表。 


散点图 

散点图 （ scatterdiagram ) 是对两个定量变量间关系的图形表述。作为散点图的一个示例，考虑 
旧金山一个音像设备商店的情况。该商店在过去三个月内有10次利用周末电视广告来促销。经理 
们想要调查是否可以证实在广告播出次数和下周商店销售额之间存在相关关系。表 2. 14显示了 
10周的以百美元为单位的销售额样本数据。 

图 2.6 是表 2. 14中数据的散点图。广告的次数显示在横轴上，销售额 （ y ) 显示在纵 
轴上。在第1周，％ == 2且 y = 50,可以在散点图上按此坐标画出该点。用同样方法可画出其他 
9周的点。我们注意到有两个星期做了一次广告，两个星期做了两次广告，依此类推。 

图 2. 6完成后的散点图指出在广告数和销售额之间存在着正相关的关系，更高的销售额与更 
多的广告次数相联系。由于所有的点不在一条直线上，这种相关关系是不完全的。可是，各点的 
总的分布情况还是说明整个关系是正相关的。 

图 2. 7显示了一些一般的散点图形式和它们所表现出的关系类型。左上图是与上个例子相类 
似的正相关关系。而右上图中，散点图显示出变量之间没有明显的关系。而在下方的图中，随着 
%的增加， y 趋向减小，显示出一种负相关关系。 
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2.7 散点图显示出的关系类型 
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表 2. 14 音像设备商店的样本数据 



CD 光盘数据 
Stereo 


3 

4 

5 

6 

7 

8 

9 

10 


广告播出次数 
x 

2 

5 

1 

3 

4 
1 

5 

3 

4 
2 


销售额（百美元 ) 

少 

50 

57 

41 

54 

54 

38 

63 

48 

59 

46 



方法 


29. 下列数据是对两个定性变量； c 和 y 的30次观察值， x 的分类是 A ， B 和 C , y 的分类是 

iEl > i 和 I 

自测题 



CD 光盘数据 
Crosstab 


观察次数 

X 

y 

观察次数 

X 

y 

1 

A 

l 

16 

B 

2 

2 

B 

l 

17 

C 

l 

3 

B 

l 

18 

B 

l 

4 

C 

2 

19 

C 

l 

5 

B 

1 

20 

B 

l 

6 

C 

2 

21 

C 

2 

7 

B 

1 

22 

B 

1 

8 

C 

2 

23 

C 

2 

9 

A 

1 

24 

A 

1 

10 

B 

1 

25 

B 

1 

11 

A 

1 

26 

C 

2 

12 

B 

1 

27 

C 

2 

13 

C 

2 

28 

A 

1 

14 

C 

2 

29 

B 

1 

15 

c 

2 

30 

B 

2 
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a . 作出数据的交叉分组列表，以； c 为行， y 为歹 ij 。 

b . 计算行百分比。 

c . 计算列百分比。 

d . 如果有的话，％和 y 之间是什么关系？ 


30. 



CD 光盘数据 


Scatter 


下面是两个定量变量 x 和 y 的20对观 察值: 


观察次数 

X 

y 

观察次数 

X 

y 

1 

-22 

22 

11 

-37 

48 

2 

- 33 

49 

12 

34 

-29 

3 

2 

8 

13 

9 

-18 

4 

29 

-16 

14 

-33 

31 

5 

-13 

10 

15 

20 

-16 

6 

21 

-28 

16 

- 3 

14 

7 

-13 

27 

17 

-15 

18 

8 

-23 

35 

18 

12 

17 

9 

14 

-5 

19 

-20 

-11 

10 

3 

-3 

20 

-7 

-22 


a . 作出 rc 和 y 之间关系的散点图。 

b . 如果有的话，^和 y 之间存在什么样的显著关系? 


应用 

31. 计算表 2. 12中数据的列百分比。质量等级和食品价格之间的关系是什么？ 

3 Z _ 表 2. 15显示的是一个包括36家纽约证券交易所上市公司的样本的财务数据 （/ motor’s 
獻 ^ Bigness Daily ， April 7, 2000) 。“销售额/边际收益/权益收益”栏的数据是一个基于公司 

自测题 

的销售额增长率、边际利润以及所有者权益收益率的综合评分。每股收益评分是对公 
司每股收益增长的度量。 

a . 构建销售额/边际收益/权益收益数据（行）和每股收益评分数据（列）的交叉分组列 
表。对每股收益评分数据按 0 — 19, 20 — 39, 40 — 59, 60 — 79和 80 — 99分组。 

b . 计算行百分比并对你所看到的变量间关系进行评论。 

33. 参考表 2. 15中的数据。 

a . 构建销售额/边际收益/投资收益率和产业群体相对实力数据的交叉分组列表。- 

b . 构建销售额/边际收益/投资收益率数据的频数分布。 

c . 构建产业群体相对实力数据的频数分布。 

d . 交叉分组列表是如何帮助构建 ( c ) 和 ( d ) 中的频数分布的？ 
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.15 36 家公司样本的财务数据 



CD 光盘数据 


IBD 


公司 

每股收益 
评分 

相对价格 
实力 

行业群体 
相对实力 

错售额 / 边际收益 / 
投资收益率 

Advo 

81 

74 

B 

A 

Alaska AirGp 

58 

17 

C 

B 

Alliant Tech 

84 

22 

B 

B 

Atmos Engy 

21 

9 

C 

E 

Bank of Am. 

87 

38 

C 

A 

Bowater PLC 

14 

46 

C 

D 

Callaway Golf 

46 

62 

B 

E 

Central Parking 

76 

18 

B 

C 

Dean Foods 

84 

7 

B 

C 

Dole Food 

70 

54 

E 

c 

Elec. Data Sys 

72 

69 

A 

B 

Fed. Dept. Stor. 

79 

21 

D 

B 

Gateway 

82 

68 

A 

A 

Goodyear 

21 

9 

E 

D 

Hanson PLC 

57 

32 

B 

B 

ICN Pharm. 

76 

56 

A 

D 

Jefferson Pit 

80 

38 

D 

C 

Kroger 

84 

24 

D 

A 

Mattel 

18 

20 

E 

D 

McDermott 

6 

6 

A 

C 

Monaco 

97 

21 

D 

A 

MurPhy Oil 

80 

62 

B 

B 

Nordstrom 

58 

57 

B 

C 

NYMAGIC 

17 

45 

D 

D 

Office Depot 

58 

40 

B 

B 

Payless Shoes 

76 

59 

B 

B 

Praxair 

62 

32 

C 

B 

Reebok 

31 

72 

C 

E 

Safeway 

91 

61 

D 

A 

Teco Energy 

49 

48 

D 

B 

Texaco 

80 

31 

D 

C 

US West 

60 

65 

B 

A 

United Rental 

98 

12 

C 

A 

Wachovia 

69 

36 

E 

B 

Winnebago 

83 

49 

n 

A 



资料来源： Investor's Business Daily ，April 7, 2000 。 
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34. 参考表 2. 15中的数据。 

a . 构建每股收益评分和相对价格实力数据的散点图。 

b . 评论变量间的关系，如果关系存在的话，每股收益评分的含义见习题32中的描述。相对价 
格实力是对过去12个月以来股票价格变化的度量，较高的值表示较强的实力。 


35. 下列数据显示的是10个拉斯韦加斯赌场酒店的酒店收入和博彩收入，单位是百万美元 （ Comd / 
Hotel And Restaurant Administration Quarterly ， Octoberl 997) 0 



CD 光盘数据 
Casino 


公司 

Boyd Gaming 

Circus Circus Enterprises 

Grand Casinos 

Hilton Corp. Gaming Div. 

MGM Grand, Inc. 

Mirage Resorts 
Primadonna Resorts 
Rio Hotel & Casino 
Sahara Gaming 
Station Casinos 


酒店收入（百万美元 ) 

303.5 
664. 8 
121.0 

429.6 
373. 1 
670.9 

66.4 

105.8 

102.4 

135.8 


博彩收入（百万美元 ) 
548.2 

664.8 

270.7 
511.0 

404.7 

782.8 

130.7 

105.5 

148.7 

358.5 


a . 构建酒店收入和博彩收入数据的散点图。 

b . 如果存在的话，评论变量间的关系。 



对于数据集合，即使它们的规模适中，当它们处于刚被收集时的原始形式时，人们也往往很 
难对它们进行直接的解释。表格和图形方法提供了组织和汇总数据的方法，使得人们能够揭示出 
数据的模式并更加容易地解释它们。频数分布、相对频数分布、百分比频数分布、柱状图以及饼 
形图是汇总定性数据的表格和图形 方法； 而频数分布、相对频数分布、百分比频数分布、点位 
图、直方图、累积频数分布、累积相对频数分布、累积百分比频数分布以及累积曲线是汇总定量 
数据的 方法； 茎叶显示作为一种探索性的数据分析技术，能够用来汇总定量 数据； 交叉分组列表 
是汇总两个变量数据的表格 方法； 散点图是显示两个定量变量间关系的图形方法。图 2.8 是对本 
章介绍过的图形和表格方法的总结。 

对于大型数据集合，在构建数据的图形和表格汇总时需要计算机软件包的帮助。在本章的两 
个附录中，我们将演示如何使用 Minitab 和 Microsoft Excel 来达到目的。 
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数据 



•频数分布 •柱状图 

•相对频数分布 •饼形图 

•百分比频数分布 
• 交叉分组列表 



•频数分布 •点位图 

• 相对频数分布 • 直方图 

•百分比频数分布 •累积曲线 

• 累积频数分布 • 茎叶显示 

•累积相对频数分布 •散点图 


• 累积百分比频数分布 
• 交叉分组列表 


图 2. 8 汇总数据的表格和图形方法 


术 语辨义 


定性 数据： 用来识别项目等事物的种类，作为事物的标记或名称的数据。 

定量 数据： 表示数量多少的数据。 

频数 分布： 表示在几个互不重叠组别中每一组所包含的项目个数（频数）的数据表格汇总。 

相对频数 分布： 用来表示在几个互不重叠组别中每一组的项目个数所占比例（相对频数）的数据 

表格汇总。 

百分比频数 分布： 表示在几个互不重叠组别中每一组的项目个数所占百分比的数据表格汇总。 

柱状 图：用 于描述已被汇总为频数分布、相对频数分布和百分比频数分布的数据而使用的图形方法。 
饼 形图： 通过把一个圆.分割为几部分，使每部分对应于每一组的相对频数，从而表示数据汇总结 
果的图形方法。 

组 中值： 每组中的组上限和组下限的平均值。 

点 位图： 一种简单的数据图形汇总方法，用位于横轴上面的点来代表观察值，以显示出数据值的 
分布情况。 

直 方图： 一种图形表示方法，它通过把横轴设为组间距，纵轴设为频数，从而构建出定量数据的 
频数分布、相对频数或百分比频数分布。 

累积频数 分布： 对定量数据进行的表格汇总，表示数值小于或等于每组上限的数据项个数。 

累积相对频数分布： 对定量数据进行的表格汇总，表示数值小于或等于每组上限的数据项占总数 


的比例 
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累积百分比频数 分布： 对定量数据进行的表格汇总，表示数值小于或等于每组上限的数据个数所 

占的百分比。 

累^ 曲线： 一种显示累积分布的图形。 

探^性数据 分析： 使用简单的算术和易画的图形来快速汇总数据的一种方法。 

茎叶 显示： 能够在同时既对定量数据排序又给出其分布形状的一种探索性数据分析技术。 

交叉分组 列表： 对两个变量的数据进行的表格汇总。其中一个变量的类别用行表示，另一变量的 

类别则用列表示。 

散点图 ：对两 个定量变量间相互关系的图形表述。其中一个变量在横轴表示，另一变量在纵轴表示。 


f 要公 



相对频数 


组内频数 


近似组宽 


数据最大值-数据最小值 
组数 


( 2 . 1 ) 


( 2 . 2 ) 



和《今曰美国》的研究提供了 2000 年 3 月最畅销的汽车车型数据 （f/&4 7Way，April 
4, 2000)。 其中在这里列出 的有： Chevrolet Silverado/C/K 小货车、 Ford F 系列小货车、 Ford 
Taurus 、 Honda Accord 以及 Toyota Camry 。 数据来源是表 2. 16 中的 50 次汽车购买样本。 


表 2. 16 50次汽车购买的数据 



CD 光盘数据 


Vehicles 


Silverado 

Taurus 

Accord 

F 系列 

Silverado 

F 系列 

Accord 

Silverado 

Camry 

Taurus 

Silverado 

F 系列 

Camry 

Silverado 

F 系列 

Taurus 

F 系列 

Taurus 

F 系列 

Camry 

Taurus 

F 系列 

F 系列 

Accord 

Camry 

Silverado 

Silverado 

Silverado 

Silverado 

Taurus 

Camry 

Silverado 

Accord 

F 系列 

F 系列 

Taurus 

F 系列 

Accord 

Camry 

Accord 

F 系列 

Silverado 

F 系列 

F 系列 

, Taurus 

Camry 

Silverado 

F 系列 

F 系列 

F 系列 
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a . 构建频数和百分比频数分布。 

b . 最畅销的两款汽车是什么？ 

c . 作出饼形图。 


《财富》1 000强公司的每一家都可被归属于几种行业之一 (Fortune ， April 17, 2000) 。 
样本包括20家公司以及对应的行业分类。 

以下的 

公司 

行业 

公司 

行业 

IBP 

食品 

Borden 

食品 

Intel 

电子 

McDonnell Douglas 

航天 

Coca-Cola 

饮料 

Morton International 

化学 

Union Carbide 

化学 

Quaker Oats 

食品 

General Electric 

电子 

Pepsico 

饮料 

Motorola 

电子 

Maytag 

电子 

Kellogg 

食品 

Textron 

航天 

Dow Chemical 

化学 

Sara Lee 

食品 

Campbell Soup 

食品 

Harris 

电子 

Ralston Purina 

食品 

Eaton 

电子 


a . 作出显示每个行业公司个数的频数分布。 

b . 作出百分比频数分布。 

c . 作出数据的柱状图。 

38. 1998年和1999年期间，《时代》周刊 采用了 下列电影作为封面 故事： Blair Witch Project, Phan¬ 
tom Menace, Beloved，Primary CoZors 和 Truman Show 。《时代》对收到的封面故事来信进行统计， 
关于这些电影的来信数目分别是159,89,85,57和51封 （ Time’September 27,1999)。 

a . 构建信件数据的百分比频数分布。 

b . 作出数据的饼形图。 

c . Blair Witch Project 和 Phantom Menace 的封面故事刊于1999年，其他的刊于1998年。关于 
1999年封面故事的信件占多大百分比？ 

39. 表 2. 17中的数据表示1997年3个季度内，健康护理服务行业20家公司的以百万美元为单位 
的销售额 （ Business Week, November 17, 1997) 0 

a . 构建频数分布汇总数据，组宽为500。 

b . 构建数据的相对频数分布。 

c . 构建数据的累积频数分布。 

d . 构建数据的累积相对频数分布。 

e . 构建直方图以表示数据。 
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表 2. 17 健康护理服务行业的公司 1997 年 3 个季度的销售额 


Beverly Ent. 

805 

Novacare 

357 

Coventry 

307 

Phycor 

284 

Express Scripts 

320 

Quest Diag. 

374 

Healthsouth 

748 

Quorum Health 

393 

Horizon 

445 

Sun Healthcare 

486 

Humana 

1 968 

Tenet Healthcare 

2 331 

Int. Health 

472 

U. Wisconsin 

389 

Lab. Corp. Am. 

377 

Univ. Health 

362 

Manor Care 

274 

Vencor 

845 

Medpartners 

1 614 

Wellpoint 

1 512 


资料来源 ： Business Week, November 17, 1997 0 


40. 40 只普通股股票的收盘价如下 （ 77 i € WWZ 滅加 March 17, 2000) : 



CD 光盘数据 
Comstock 


29 % 

34 

43 K 

8 X 

37% 

9 X 

16 / 4 

38 

53% 

16% 

10 

37 

18 

8 

28 K 

32 K 

29 % 

19 % 

11% 

38% 


8K 

1 % 

30% 

35 X 

19% 

IX 

48% 

18 

9% 

9 K 

24 K 

21 % 

18 K 

33% 

3 lM 

llK 

52 

14 

9 

33% 


a . 构建数据的频数和相对频数分布。 

b . 构建数据的累积频数和累积相对频数分布。 

c . 作出数据的直方图。 


d . 使用你的汇总结果，对普通股股票的价格进行评论和观察。 


41. 



CD 光盘数据 
Shadow 


美国个人投资者协会对94只新的影子股票进行了报道 （ 九4// Journal ，February 1997)。 
术语“ 影子” 是指那些不被主要的经纪机构密切跟踪的中小型企业股票。有关股票交易 
地点——纽约股票交易所、美国股票交易所以及场外交易，每股收益和市盈率的信息 
由下列20只影子股票的样本 给出： 


股票 

交易地点 

每股收益 ( 美元） 

市盈率 

Chemi-Trol 

OTC 

0. 39 

27. 30 

Candie’ s 

OTC 

0. 07 

36. 20 

TST/Impreso 

OTC 

0.65 

12.70 

Unimed Pharm. 

OTC 

0. 12 

59. 30 

Skyline Chili 

AMEX 

0. 34 

19.30 

Cyanotech 

OTC 

0. 22 

29. 30 

Catalina Light. 

NYSE 

0. 15 

33.20 

DDL Elect. 

NYSE 

0. 10 

10. 20 

Euphonix 

OTC 

0. 09 

49.70 
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42. 



CD 光盘数据 
Income 


股票 

交易地点 

每股收益 ( 美元 > 

市盈率 

Mesa Labs 

OTC 

0. 37 

14.40 

RCM Tech. 

OTC 

0.47 

18. 60 

Anuhco 

AMEX 

0.70 

11.40 

Hello Direct 

OTC 

0. 23 

21. 10 

Hilite Industries 

OTC 

0.61 

7.80 

Alpha Tech. 

OTC 

0. 11 

34.60 

Wegener Group 

OTC 

0. 16 

24. 50 

U. S. Home & Garden 

OTC 

0. 24 

8. 70 

Chalone Wine 

OTC 

0.27 

44.40 

Eng. Support Sys. 

OTC 

0.89 

16.70 

Int. Remote Imaging 

AMEX 

0. 86 

4.70 


a. 构建交易地点数据的频数和相对频数分布。在哪里交易的影子股票被列出的最多？ 

b . 构建每股收益和市盈率数据的频数和相对频数分布。对每股收益数据使用组限为 
0.00—0.19， 0.20—0.39, 等等； 对市盈率数据使用组限为 0. 0— 9. 9， 10.0— 
19.9, 等等。你对影子股票的观察结果和评论是什么？ 

1998年各州的个人收入 如下： 


Ala. 

21 500 

Ga. 

25 106 

Md. 

30 023 

Alaska 

25 771 

Hawaii 

26 210 

Mass. 

32 902 

Ariz. 

23 152 

Idaho 

21 080 

Mich. 

25 979 

Ark. 

20 393 

Ill. 

28 976 

Minn. 

27 667 

Calif. 

27 579 

Ind. 

24 302 

Miss. 

18 998 

Colo. 

28 821 

Iowa 

24 007 

Mo. 

24 447 

Conn. 

37 700 

Kan. 

25 049 

Mont. 

20 247 

Del. 

29 932 

Ky. 

21 551 

Neb. 

24 786 

D. C. 

37 325 

La. 

21 385 

Nev. 

27 360 

Fla, 

25 922 

Maine 

23 002 

N. H. 

29 219 

N. J. 

33 953 

Ore. 

24 775 

Utah 

21 096 

N. M. 

20 008 

Penn. 

26 889 

Vt. 

24 217 

N. Y. 

31 679 

R. I. 

26 924 

Va. 

27 489 

N. C. 

24 122 

s. c 

21 387 

Wash. 

28 066 

N. D. 

21 708 

S. D. 

22 201 

W. Va. 

19 373 

Ohio 

25 239 

Term. 

23 615 

Wis. 

25 184 

Okla. 

21 056 

Texas 

25 028 

Wyo. 

23 225 


资料来源 ： Current Population Survey, Bureau of Economic Analysis, March 2000 。 
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构建数据的频数分布、相对频数分布和直方图。 

43. 经济教育联合会对 40 个州的调查结论是学生们没有掌握足够的经济学知识，这个发现是基于 
对 11 和 12 年级学生所进行的一项测验结果。该测验包括 46 个问题，形式是考查诸如利润和 
供求定理这样的基础经济概念的多项选择题。下表给出了被正确回答的问题数的样本 数据： 


12 

10 

16 

24 

12 

14 

18 

23 

31 

14 

15 

19 

17 

9 

19 

28 

24 

16 

21 

13 

20 

12 

22 

18 

22 

18 

30 

16 

26 

18 

16 

14 

8 

25 

22 

15 

33 

24 

17 

19 


使用下列方法汇总 数据： 

a. 茎叶显示。 

b. 频数分布。 

c. 相对频数分布。 

d. 累积频数分布。 

e. 在这些数据的基础上，你同意学生们没有掌握足够经济学知识的结论吗？请解释。 


44. 



CD 光盘数据 
HighLow 


20个城市的每日高温和低温 如下: 


城市 

高温 

低温 

城市 

宜泊 
同 ism 

低温 

雅典 

75 

54 

墨尔本 

66 

50 

曼谷 

92 

74 

蒙特利尔 

64 

52 

开罗 

84 

57 

巴黎 

77 

55 

哥本哈根 

64 

39 

里约热内卢 

80 

61 

都柏林 

64 

46 

罗马 

81 

54 

哈瓦那 

86 

68 

汉城 

64 

50 

香港 

81 

72 

新加坡 

90 

75 

约翰内斯堡 

61 

50 

悉尼 

68 

55 

伦敦 

73 

48 

东京 

79 

59 

马尼拉 

93 

75 

温哥华 

57 

43 


资料 来源 ： USA Today, May 9,2000 o 


a. 作出高温的茎叶显示。 

b. 作出低温的茎叶显示。 

c. 比较 (a) 和 (b) 的茎叶显示，并对每日高和低气温间的差异进行评论。 

d. 使用 （ a ) •中 的茎叶显示来确定高温为 80° 或 80° 以上的城市数目。 

e. 作出高温和低温的气温频数分布。 


45. 参考上题中 20 个城市的高温和低温的气温数据集。 

a. 作出散点图以显示在高温和低温这两个变量之间的关系。 

b. 评论高温和低温气温间的关系。 


46. 
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CD 光盘数据 
OccupSal 


47. 



CD 光盘数据 
RevEmps 


有人对四种职业进行了工作满意度研究。工作满意度是通过一个包括18个问题的问卷 
调查表来测量的，每个问题对应着1到5分。18个问题的得分总和就是样本中每个人 
的工作满意度分数。数据已给出如下，更高的分数代表更大的满意度。 


职业 

满意度 

职业 

满意度 

职业 

满意度 


分数 


分数 


分数 

律师 

42 

理疗师 

78 

系统分析师 

60 

理疗师 

86 

系统分析师 

44 

理疗师 

59 

律师 

42 

系统分析师 

71 

木工 

78 

系统分析师 

55 

律师 

50 

理疗师 

60 

律师 

38 

律师 

48 

理疗师 

50 

木工 

79 

木工 

69 

木工 

79 

律师 

44 

理疗师 

80 

系统分析师 

62 

系统分析师 

41 

系统分析师 

64 

律师 

45 

理疗师 

55 

理疗师 

55 

木工 

84 

系统分析师 

66 

木工 

64 

理疗师 

62 

律师 

53 

木工 

59 

系统分析师 

73 

木工 

65 

木工 

54 

木工 

60 

律师 

74 

系统分析师 

76 

律师 

64 

理疗师 

52 






a . 作出职业和满意度分数的交叉分组列表。 

b . 计算 a 中交叉分组列表的行百分比。 

c . 关于这些职业的满意度水平，你能得出什么观察结果？ 

是否更大的公司产生更多的收入？下列数据给出了样本的雇员人数和年收入，样本中 
包括了 20家《财富》1 000强公司 （ Fortune , April 17, 2000) 。 


公司 

雇员人数 

收入 

( 百万 美元 } 

公司 

雇员人数 

收入 

( 百万美元 ) 

Sprint 

77 600 

19 930 

American Financial 

9 400 

3 334 

Chase Manhattan 

74 801 

33 710 

Fluor 

53 561 

12 417 

Computer Sciences 

50 000 

7 660 

Phillips Petroleum 

15 900 

13 852 

Wells Fargo 

89 355 

21795 

Cardinal Health 

36 000 

25 034 

Sunbeam 

12 200 

2 398 

Borders Group 

23 500 

2 999 

CBS 

29 000 

7 510 

MCI Worldcom 

77 000 

37 120 

Time Warner 

69 722 

27 333 

Consolidated Edison 

14 269 

7 491 

Steelcase 

16 200 

2 743 

IBP 

45 000 

14 075 

Georgia-Pacific 

57 000 

17 796 

Super Value 

50 000 

17 421 

Toro 

1 275 

4 673 

H&R Block 

4 200 

1669 


a . 作出散点图来显示收入和雇员人数两变量间的关系。 
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b. 对两变量间明显存在的关系进行评论。 

48. 1992 年对由辛辛那提煤气与电力公司 （Cincinati Gas & Electric Company) 提供服务的商业建筑进 
行了 一 项调查 （ CG&E Commercial Building Characteristics Survey, November 25, 1992) 。 问题之 
一是使用的主要燃料是什么，之二是商业建筑建设年份。调查结果的部分交叉分组列表如 
下： 


燃料类型 


建设年份 

电力 

天然气 

石油 

丙烷 

其他 

1973 及以前 

40 

183 

12 

5 

7 

1974—1979 

24 

26 

2 

2 

0 

1980—1986 

37 

38 

1 

0 

6 

1987—1991 

48 

70 

2 

0 

1 


a. 通过作出行总计和列总计完成交叉分组列表。 

b. 作出建筑年份和燃料类型的频数分布。 

c. 作出显示列百分比的交叉分组列表。 


49. 一份名为 《CD ROM 的财富》的档案列在书的封底。表 2. 18包括这些数据的一部分，它提供了 
50家《财富》500强公司样本的所有者权益、市场价值以及利润的数据 （ Fortune , April 26, 
1999) o 

a . 构建所有者权益和利润变量的交叉分组列表。对利润变量分组为 0 — 200 , 200 — 400,…, 
1 000— 1 200,对所有者权益分组为 0—1 200， 1 200— 2400，…，4 800—6 000。 

b . 计算 （ a ) 中交叉分组列表的行百分比。 

c . 你注意到利润和所有者权益之间存在着什么关系？ 

50. 参考表 2. 18中的数据集。 

a . 构建市场价值和利润变量的交叉分组列表。 

b . 计算 ( a ) 中交叉分组列表的行百分比。 

c . 对两变量间存在的明显关系进行评论。 

51. 参考表 2. 18中的数据集。 

a . 作出散点图以显示利润和所有者权益变量间的关系。 

b . 对两变量间存在的明显关系进行评论。 

52. 参考表 2. 18中的数据集。 

a . 作出散点图以显示市场价值和所有者权益变量间的关系。 

b . 对两变量间存在的明显关系进行评论。 
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表 2. 18 — 个包括 50 家《财富》 500 强公司的样本数据 



CD 光盘数据 
Fortune 


公司 

所有者权益 

市场价值 

利润 


( 千美元） 

( 千美元） 

( 千 美元 ) 

AGCO 

982. 1 

372. 1 

60.6 

AMP 

2 698.0 

12 017.6 

2.0 

Apple Computer 

1 642.0 

4 605.0 

309.0 

Baxter International 

2 839.0 

21 743.0 

315.0 

Bergen Brunswick 

629. 1 

2 787.5 

3. 1 

Best Buy 

557.7 

10 376.5 

94.5 

Charles Schwab 

1 429.0 

35 340.6 

348.5 

• • • 

Walgreen 

• • • 

2 849. 0 

• • • 

30 324.7 

• • • 

511.0 

Westvaco 

2 246.4 

2 225.6 

132.0 

Whirlpool 

2 001.0 

3 729.4 

325.0 

Xerox 

5 544.0 

35 603.7 

395.0 


案例研究 CONSOLIDATED 食品公司 

Consolidated 食品公司在新墨西哥州、亚利桑那州和加利福尼亚州经营连锁超市。它举办了一 
个促销活动，宣传本公司新的信用卡政策，以使顾客在购物付款时除了使用现金和个人支票外， 
还能够选择使用诸如维萨卡和万事达卡这样的信用卡。新政策正在试验的基础上实行，公司希望 
信用卡支付方式能够鼓励顾客多消费。 

在新政策实行一个月以后，工作人员选择了一周时间内的100位顾客作为随机样本，搜集了 
每位顾客的支付方式和消费金额数据。表 2. 19列出了样本数据的一部分。在实行新政策以前，该 
公司的顾客中大约有50%用现金付款，而用个人支票付款的也占大约50%。 

管理报告 

使用描述统计的表格和图形方法来汇总表 2. 19中的样本数据。你的报告应包括下列形式的数 
据 汇总： 

1. 支付方式的频数和相对频数分布。 

2. 支付方式的柱状图或饼形图。 

3. 每种支付方式下消费金额的频数和相对频数分布。 

4. 每种支付方式下消费金额的直方图和/或茎叶显示图。 

5. 支付方式和消费金额变量的交叉分组列表。 
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表 2. 19 100 位顾客样本的消费金额和支付方式 



CD 光盘数据 
Consol id 


顾客 

消费金额（美元） 

支付方式 

1 

28. 58 

支票 

2 

52.04 

支票 

3 

7.41 

现金 

4 

11. 17 

现金 

5 

43.79 

信用卡 

6 

48, 95 

支票 

7 

57.59 

支票 

8 

27.60 

支票 

9 

26.91 

信用卡 

10 

9.00 

现金 


95 18.09 现金 


96 

54. 84 

支票 

97 

41. 10 

支票 

98 

43. 14 

支票 

99 

3.31 

现金 

00 

69.77 

信用卡 


对于消费金额和支付方式，你能够得出什么样的初步结论？ 

附录 2. 1在表格和图形方法中应用 Minitab 软件 

Minitab 软件在构建数据的表格和图形汇总方面具有广泛的功能。本附录中，我们将演示怎样 
应用 Minitab 构建几种图形汇总以及交叉分组列表的表格汇总。所演示的图形方法包括点位图、直 
方图、茎叶显示和散点图。 


点位图 


我们使用表 2. 5 中的审计时间数据来说明。这些数据已经被输人 Minitab 工作表的 C1 列，通 


过下列步骤能够生成在图 2. 3 中显示的点 位图: 



CD 光盘数据 


Audit 


步骤 1 . 选择 Graph 下拉菜单； 
步骤 2 . 选择 Dotplot 选项； 

步骤 3. 当 Dotplot 对话框出 现时： 
在 Variables 框中输人 Cl; 

点击 OK。 
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直方图 


我们以表 2.5 中的审计时间数据作为纵轴来演示如何构建频数的直方图。这些数据已经被输 
人 Minitab 工作表的 C 1 列，通过下列步骤将生成在图 2.4 中显示的直 方图： 



CD 光盘数据 


Audit 


步骤 1 . 选择 Graph 下拉菜单； 

步骤 2 . 选择 Histogram 选项； 

步骤 3•当 Histogram 对话框出现时： 

在 Graph variables 框的第1行输人 Cl ; 

在 Data display 框的 Display 项目下选择 Bar, 在 For each 项目下选择 
Graph; 

选择 Options; 

步骤 4 •当 Histogram Options 对话框出现时： 

在 Type of Histogram 项下选择 Frequency ; 

在 Type of Intervals 项下选择 CutPoint; 

在 Definition of Intervals 项下选择 Midpoint/cutpoint positions, 并在框 

中输人 10: 35/5 〆 
点击 OK 。 

步骤 5 .当 Histogram 对话框出现时： 

点击 OK 。 


茎叶显示 



CD 光盘数据 
ApTest 


我们使用表 2. 10的能力测试数据来演示如何得出茎叶显示。这些数据已经被输人 
Minitab 工作表的 Cl 列，下列步骤能够生成在 2. 3节显示的扩展茎叶 显示： 

步骤 1 . 选择 Graph 下拉菜单； 

步骤 2. 选择 Stem-and-Leaf 选项； 

步骤 3 .当 Stem - and - Leaf 对话框出现时： 


在 Variables 框中输入 C 1 ; 

点击 OK 。 


散点图 

我们使用表 2. 14的音像设备商店数据来演示散点图的构建。把星期数从1到10输入到 C 1 列, 


* 输人的 10: 35/5 表示 10 是直方图的最小值，而 35 是最大值，组宽为 5 。 
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CD 光盘数据 
Stereo 


把广告次数的数据输人 C 2 列，销售额数据则输人 C 3 列。通过下列步骤将生成图 2. 6中 
的散 点图： 

步骤 1 . 选择 Graph 下拉菜单； 

步骤 2 . 选择 Plot 选项； 

步骤 3. 当 Plot 对话框出 现时： 


在 Graph variables 部分 Y 项下输入 C 3, X 项下输入 C 2; 

在 Data display 部分 Display 项下选择 Symbol , For each 项下选择 Point ； 

点击 OK 。 


交叉分组列表 

签们使用来自 “ Zagat ’ s 饭店评论”的数据来演示交叉分组列表的构建，数据的一部分见表 2. 11。 
在 Minitab 工作表的 C 1 列，饭店按1到300 编号； 质量等级输人 C 2 列； 食品价格输入 
03列 。 

CD 光盘数据 Minitab 只能创建定性变量的交叉分组列表，而食品价格是定量变量。因此，我们 
Reslaurant 首先通过规定每个食品价格所归属的类，来对食品价格数据编码。下列步骤可以对食 
品价格数据编码，在 C 4 列中产生四 个类： 10— 19美元，20 — 29美元，30 —39美元 
以及40 —49美元。 


步骤 1 . 选择 Manip 下拉菜单； 

步骤 2 . 选择 Code 选项； 

步骤 3. 选择 Numeric to Text 选项； 

步骤 4•当 Code-Numeric to Text 对话框出现时： 

在 Code data from cohimns 框中输入 C 3; 

在 Into columns 框中输入 C 4； 

在第一个 Original values 框中输人10: 19，在邻近的 New 框中输入 
10-19; 

在第二个 Original values 框中输入20: 29,在邻近的 New 框中输入 
20 - 29; 

在第三个 Original values 框中输入30: 39，在邻近的 New 框中输人 
30-39; 

在第四个 Original values 框中输入40: 49,在邻近的 New 框中输入 
40-49; 

点击 OK 。 


对于 C 3 列的每个食品价格，对应的食品价格类别会出现在第4列中。我们现在能够使用第2 
列和第4列的数据来构建质量等级和食品价格类别的交叉分组列表。下列步骤将创建出与表 2. 12 
包含相同信息的交叉分组 列表： 
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步骤 1. 选择 Stat 下拉 菜单； 

步骤 2 . 选择 Tables 选项； 

步骤 3.选择 Cross Tabulation 选项； 

步骤 4.当 Cross Tabulation 对话框出现时： 

在 Classification variables 框中输入 C2 C4; 
选择 Counts ； 

点击 OK 。 


附录 2. 2在表格和图形方法中应用 Excel 软件 

Excel 软件在构建数据的表格和图形汇总时具有广泛的功能，其中三个功能最强大的工具是函 
数向导、图表向导和关键表报告。 


函数和函数向导 

Excel 提供了对统计分析有用的各种函数。如果你知道需要什么函数和如何使用的话，那么只 
需把函数直接输入 Excel 工作表的单元格中即可。如果你不知道的话， Excel 提供了函数向导来帮 
助你识别可用的函数并使用它们。 


函数向导。 为得到函数向导，点击标准工具条的，，或者选择 Insert 下拉菜单并选择，函 
数，然后 Paste Function 对话框将会出现(见图 2. 9) 。 在 Function category 框显示 Excel 中函数类 
别的 列表； 在图 2.9 中，我们已经选择了 Statistical 。 当 Statistical 选项高亮显示时，在 Function 

name 框中将显示出一个包括了所有可用统计函数的列表。这里，我们已经高亮显示了 COUNTIF 


(iSTirJion 




hm i, 


Most Recently Used 

Ail 

Financial 
Date & Time 
Math & Trig 



图 2. 9 Excel 的 Paste Function 对话框 
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函数。而一旦某函数被高亮显示，它的正确形式以及简要介绍就会显示在 Function category 和 
Function name 框下面。为了得到正确使用函数的帮助，点击 OK 。 


频数分布。我们来演示怎样利用 C 0 UNTIF 函数来构建表 2. 1的软饮料购买次数数据的频数分 
布。首先参考图 2. 10,公式工作表（显示使用的函数和公式）出现在底面，而数值工作表（显示 
用函数和公式得到的结果）则出现在表面。 

把标志“购买的品牌”和50次软饮料购买的数据输入单元格 A 1: A 51， 把一个标 
志和软饮料的品名输入单元格 Cl : C 6。 Excel 的 C 0 UNHF 函数能够把显示在单元格 
A 2： A 51 中的每种软饮料的购买次数加总起来。使用下列步骤就可以利用函数向导生成 
图 2. 10表面的频数 分布： 



CD 光盘数据 


步骤 1. 选择单元格 D 2, 得到函数向导，再从统计函数列表中选择 COUNTIF ; 
步骤 2. 点击 OK ; 

步骤 3. 当 C 0 UNTIF 对话框出 现时： 


在 Range 框中输人 $ A $2： $ A $51; 

在 Criteria 框中输入 C 2; 

点击 OK ; 

步骤 4. 把单元格 D 2 复制到单元格 D 3: D 6 中。 









藤 


Soft Drink : Frequency _ 

1 =C0TOT1F(SAS2:$AS51 ,C2) 


jCoke Classic 
；Diet Coke 
jDr. Pepper 
jPcpsi-Cola 
jSprite 


=OOWnF($A$2:$A$51 f C3) 


=COT?Fm(U$2:$AS51 ， C4) 


=CQTOTDFCSA$2:$A$51,C5) 


=COTOTIF($AS2:SA$51 ， C6) 





Soft Drink 

Frequency 

Coke Classic 

19 

Diet Coke 

8 

Dr. Pepper 

5 

Pcpsi-Cola 

13 

Sprite 

5 


图 2. 10 使用 Excel 的 COUNT1F 函数创建软饮料购买次数的频数分布 


行 11 _14 是隐藏的。 
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图 2. 10中底面的公式工作表表示应用这些步骤插人的单元格 公式； 图 2. 10中表面的数值工 
作表显示使用这些单元格公式计算出的数值。我们看到 Excel 工作表显示出了与表 2. 2 相同的频 
数分布。 

如果你对 COUNTIF 函数熟悉，并且不需要函数向导帮助的话，你能够直接向单元格 D2:D6 
输入公式。例如，为加总 Coke Classic 出现的次数，我们把下面的公式输人单元格 D2: 

= COUNTIF($A$2 ： $A$5 1, C2) 

在加总其他软饮料岀现的次数时，只需把公式复制到单元格 D3: D6 中即可。 

在以后的章节附录中，还要演示更多的 Excel 函数。我们将视函数的复杂程度，决定是直接 
把它输入适当的单元格还是利用函数向导。 


图表向导 


Excel 的图表向导在构建数据的图形表达方面具有广泛的功能。使用该工具，我们将能够超出 
仅仅利用函数和公式所做的工作范围。我们将演示如何应用它来构建柱状图、直方图和散点图。 


柱状图和直方图。 在此我们说明怎样利用图表向导来作出柱状图和直方图。让我们从构建软 


饮料数据的柱状图开始，首先我们要作出图 2. 10的频数分布，因为所要构建的图表是那个工作表 



的一个扩展。在我们描述要做的工作时参考图 2. 11，图 2. 10的数值工作表在底面，而利用图表 
向导作出的图在表面。 

下列步骤描述了怎样利用图表向导，从而在单元格 Cl: D6 所显示的频数分布的基 
础上构建软饮料数据的柱状图。 

步骤 1. 选择单元格 C1:D6; 

步骤 2. 在标准工具条上选择 Chart Wizard 键（或者选择 Insert 下拉菜单，再选择 
Chart 选项）； 

步骤 3.当 Chart Wizard - Step 1 of 4 - Chart Type 对话框出现时： 

在 Chart type 列表中选择 Column ； 

从 Chart sub-type 显示中选择 Clustered Column ; 

选择 Next : 


CD 光盘数据 
SoftDrink 


步骤 4.当 Chart Wizard - Step 2 of 4 - Chart Source Data 对话框出现时: 
选择 Next >； 

步骤 5 •当 Chart Wizard - Step 3 of 4 - Chart Options 对话框出现时： 
选择 Titles 选项条； 


在 Chart title 框中输入 Bar Graph of Soft Drink Purchases ; 
在 Category ( X ) axis 框中输入 Soft Drink ; 

在 Values ( Y ) axis 框中输入 Frequency ; 

选择 Legend 选项条； 
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图 2. 11 利用 Excel 图表向导作出的软饮料购买次数数据的柱状图 


然后在 Show legend 框中去掉选择； 

选择 Next >; 

步骤 6.当 Chart Wizard - Step 4 of 4 - Chart Location 对话框出现时： 

指定新图表的位置（我们通过选择 As object in 还使用目前的工作 表）; 

选择 Finish 。 


作出的柱状图（表)显示在图 2. 11中。‘ 

Excel 的图表向导能够以类似的方式生成软饮料数据的饼形图，主要的区别是在步骤 3, 我们 
需要在 Chart type 列表中选择 Pie 。 

正如我们在 2.2 节末尾的注释中所述，直方图基本上与柱状图相同，只是在柱之间没有间 
隔。图 2. 12显示出审计时间数据的频数分布在底面，而利用图表向导构建的柱状图（使用与前述 
相同的步骤)显示在表面。因为在直方图中相邻的条必须接触，我们需要编辑列图表（柱状图）以 
便消除各柱之间的距离。下列步骤可以完成这个 过程： 

步骤 1. 右击柱状图的任何一根柱以生成选项列表； 

步骤 2. 选择 Format Data Series ； 

步骤 3.当 Format Data Series 对话框出现时： 

选择 Options 选项条； 


* 图 2. 11 的柱状图比选择 Finish 以后 Excel 提供的图稍微大一些。要重新设置 Excel 图表的大小并不困难。首先，选择图表， 
则小黑方块 —— 即称为尺寸控制器的东西就会出现在图表的边缘。点击尺寸控制器并拖放它们直到设置为需要的大小。 
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图 2. 12 利用 Excel 作出的审计时间数据直方图 

在 Gap width 框中输入0; 

点击 OK 。 

散点图。我们使用表 2. 14的音像设备商店数据来演示如何利用 Excel 的图表向导构建散点 
图。首先参考图2.13,数据在图的底面而由图表向导生成的散点图显示在图的表面。下列步骤能 
够生成散 点图： 



图 2. 13 由 Excel 的图表向导生成的音像设备商店数据的散点图 
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CD 光盘数据 
Stereo 


步骤 1. 选择单元格 B 1: C 11; 

步骤 2. 在标准工具条上选择 Chart Wizard 键（或者选择 Insert 下拉菜单并选择 
Chart 选项）； 

步骤 3.当 Chart Wizard - Step 1 of 4 - Chart Type 对话框出现时： 

在 Chart type : 显示中选择 XY ( Scatter ) ； 

选择 Next >； 

步骤 4•当 Chart Wizard - Step 2 of 4 - Chart Source Data 对话框出现时： 

选择 Next >； 

步骤 5•当 Chart Wizard - Step 3 of 4 - Chart Options 对话框出现时： 

选择 Titles 选项条； 

在 Chart title 框中输入 Scatter Diagram for the Stereo and Sound Equip ¬ 
ment Store ； 

在 Value ( X ) axis 框中输人 No . of Commercials ； 

在 Value ( Y ) axis 框中输人 Sales Volume ； 

选择 Legend 选项条； 

去掉 Show legend 框的选择； 

选择 Next >; 

步骤 6•当 Chart Wizard - Step 4 of 4 - Chart Location 对话框出现时： 

指定新图表的位置（我们通过选择 As object in 还使用目前的工作 表）； 

选择 Finish o 


关键表报告 

Excel 的关键表报告提供了管理超过一个变量的数据集的有效工具，我们通过构建交叉分组 
列表来说明它的应用。 

交叉分组列表。 我们使用图 2. 14的饭店数据来演示如何构建交叉分组列表。我们把标志输人 
第1行，把300家饭店中每一家的数据输入单元格 A 2: C 301。 

表 2. 12的交叉分组列表在质量等级标志下面有三行，对应于三个质量等级类别 ：好、 非常 
好、优异。除非我们另有规定，否则关键表报告将按照英文字母顺序对标志排序，这导致了质量 
等级的顺序被排 列为： 优异、好、非常好。因为我们需要的质量等级顺序为 ：好、 非常好、优 
异，我们必须改变关键表报告的错误顺序。通过下列步骤我们能够做到这 一点： 

步骤 1 . 选择 Tools 下拉 菜单； 

步骤 2 •选择 Options ; 

步骤 3.当 Opt ions 对话框出现时： 

CD 光盘数据 ^ 

Restaurant 选择 Custom HstS 选项条（见图 2.15) ; 

在 List entries 框中，输人类型 Good 并按 Enter 键；输人类型 Very Good 
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CD 光盘数据 


Restaurant 



图 2. 14 包含饭店数据的 Excel 工作表 


注意：隐藏了行12 — 291。 


并按 Enter 键； 

输人类型 Excellent ； 

选择 Add ； 

点击 OK 。 

« * 

现在我们已经为使用关键表报告构建质量等级和食品价格数据的交叉分组列表做好了准备 
以图 2. 14 的工作表为开始，下列步骤是必 需的： 

步骤 1 . 选择 Data 下拉 菜单； 

步骤 2.选择 PivotTable and PivotChart 报告； 

步骤3 .当 PivotTable and PivotChart Wizard - Step 1 of 3 对话框出现时： 

选择 Microsoft Excel list or database ； 

选择 PivotTable ； 

选择 Next >; 

步骤 4 .当 PivotTable and PivotChart Wizard - Step 2 of 3 对话框出现时： 

在 Range 框中输入 A 1: C 301; 

选择 Next >； 

步骤 5.当 PivotTable and PivotChart Wizard _ Step 3 of 3 对话框出现时： 

选择 New Worksheet ; 

点击 Layout 键； 

当 PivotTable and PivotChart Wizard - Layout 图出现时（见图 2. 16) : 
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图 2. 15 改变 Excel PivotTable 中种类顺序的对话框 


把 QualityRating 键拖到图的 ROW 区域； 

把 Meal Price ($) 键拖到图的 COLUMN 区域； 

把 Restaurant 键拖到图的 DATA 区域； 

双击 DATA 区域的 Sum of Restaurant 键； 

当 PivotTable Field 对话框出现时： 

在 Summarize by 项下选择 Count ； 

点击 OK (图 2. 17显示了完成的 Layout 图）； 

点击 OK ; 

当 PivotTable and PivotChart Wizard - Step 3 of 3 对话框再次出现时： 

选择 Finish > 0 

由 Excel 生成的输出结果的一部分显示在图 2. 18中。我们注意到从 D 列到 AK 列的输出已被 
隐藏以使结果能够岀现在合理尺寸的图形内。图 2. 18的行标志 （ Good , Very Good , and Excellent ) 
和行总计 (84,150, 66, 300) 与表 2. 12 的行标志和行总计是相同的，但是，图 2. 18中的列被指定 
为食品价格的每个可能值。例如， B 列包含具有10美元食品价格的饭店加总数， C 列则包含具有 
11美元食品价格的饭店加总数，依此类推。为了以一种与表 2. 12相类似的方式观察关键表报告， 
我们必须把所有列合并为四个价格 类别： 10 — 19美元， 20 — 29美元 ,30 — 39美元，以及 40— 49 
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S 2. 16 PivotTable and PivotChart Wizard - Layout 图 
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图 2. 18 原始的关键表报告输出（列 D:AK 被隐藏 ) 


美元。合并图 2. 18工作表列的必需步骤 如下: 


步骤 1.右击 PivotTable 的单元格 B3 内的 Meal Price ($) ; 

步骤 2 . 选择 Group and Outline ; 

再选 Group ; 

步骤 3.当 Grouping 对话框出现时： 

在 Starting at 框中输入10; 

在 Ending at 框中输入49; 

在 By 框中输入10; 

点击 OK 。 

修正后的关键表输出结果显示在图 2. 19中。它是最终的关键表，我们注意到它提供了与表 
2. 12的交叉分组列表相同的信息。 















第 2 章描述性统 计：表 格法和图形法 79 



图 2. 19 最终的饭店数据关键表报告 
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s 描述性统 计:数 值方法 


统计实例 : SMALL FRY DESIGN 公司 
3.1 位置的度量 

均值 

中位数 

众数 

百分位数 
四分位数 

3.2 变异程度的度量 

极差 

四分位点内距 
方差 
标准差 
变异系数 

3.3 相对位置的度量和异常值的检测 

z -分数 
切比雪夫定理 
经验法则 
异常值检测 

3.4 探索性数据分析 

五数概括法 
箱形图 

3.5 两变量间关系的度量 

协方差 

协方差的解释 
相关系数 
相关系数的解释 

3.6 加权平均值和使用分组数据 

加权平均值 
分组数据 
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SMALL FRY DESIGN * 公司 

圣安娜，加利福尼亚州 

Small Fry Design 公司成立于 1997 年，是一家 
设计和进口婴儿产品的公司，主要经营玩具和附属 
用品。公司的产品包括泰德熊、玩具汽车、音乐玩 
具、拨浪鼓和安全床垫等，而公司的特长是设计强 
调颜色、材质和声音高质量的柔软玩具。公司的产 
品在美国设计，而在中国生产。 

Small Fry Design 公司使用独立的销售代表把产 
品销售给婴儿用品零售商、儿童用品和服装商店、 
礼品店、大规模百货商场和主要的邮购公司。目前， 
公司的产品遍布美国的 1 000 多个零售终端。 

在这个年轻公司的日常运营中，现金流量管理 
是最重要的经营活动之一。是否能够保证公司拥有 
足够的现金收入以 满足目 前和未来的偿债义务，决 
定着公司业务的成败。现金流量管理的一个关键因 
素是对应收账款的分析和控制。通过度量未付款发 
票的平均账龄和价值，经理能够预测可用现金和监 
视应收账款状态的变化。公司设置了下述目标 ：未付 
款发票的平均账龄不应超过 45 天，超过 60 天的未 
付款发票的价值不应超过所有应收账款价值的 5 %。 

在最近对应收账款的总结中，使用了下列描述 
性统计量来衡量未付款发票的 账龄： 

均值 40 天 

中位数 35 天 

众数 31 天 


* 作者衷心感谢 Small Fry Design 公司中的经理 John 
A. Mc-Carthy 提供了该案例。 



Small Fry Design 公司的一些产品 。 © Photo Courtesy of 
Small Fry Design. 


对这些统计量的解释表明，一张发票的均值或 
者平均账龄是 40 天； 而中位数显示一半的发票已 
经超过 35 天没有 付款； 31 天的众数表示最高频率 
的发票账龄，即一张未付款发票的最普通时间长度 
是 31 天。统计汇总还显示出应收账款总价值中只 
有 3 %超过了 60 天。基于这些统计信息，管理者 
可以感到满意，因为应收账款和收入现金流都处于 
控制之下。 

在本章中，你将学习如何计算和理解 Small 
Fry Design 公司使用过的一些统计度量。除了均 
值、中位数和众数外，你还将学到其他的描述性 
统计量， 例如： 极差、方差、标准差、百分位数 
和相关系数。这些数值度量将有助于对数据的理 
解和解释。 


在第2章里，我们讨论了用来汇总数据的表格和图形方法。这些方法在撰写报告时很有效， 
它们在向个人和团体表达时可作为一种直观的工具。在本章里，我们将给出几种描述性统计学的 
数值方法，它们提供了汇总数据的其他可选方法。 

我们从考虑只包含一个变量的数据集开始对问题的讨论。可以使用〃个数据值来计算位置和 
离散程度的度量数值，如果数据集含有超过一个的变量，我们能够分别计算每个单独变量的度量 
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数值。在两变量的例子中，我们将构建对变量之间关系的度量。 

本章将介绍位置、离散程度和相关程度的几种数值度量。如果使用样本中的数据来计算度量 
值，则称这样的度量值为样本 统计置 (sample statistics ); 如果它是用总体中的数据计算得出的，则 
称为总 体参数 （population parameters ) 。 


3.1 位置的度量 


均值 

也许位置的数值度量中最重要的就是变量的均值 ( mean ) 了，或者叫平均值。均值提供了对数据 
集中心位置的度量。如果数据来自样本，我们把均值 记作巧 如果数据来自总体，我们则用希腊字母 
M 表示它。 

在统计学公式中，我们习惯用^来表示变量; c 的第一个观察值，用心来表示变量； c 的第二个 
观察值，依此类推。作为一般，我们把数值的第 f 个观察值记作〜。对于具有〃个观察值的样 
本，计算样本均值的公式如下： 


祥本均值 


(3.1) 


n 



在这个公式里，分子是 〃个 观察值的数值之和，即 


Y. Xi= X\ + X2 + + X, 


希腊字母5：是求和符号。 

为了说明样本均值的计算，让我们考虑下列班级人数数据，它来自一个由5个大学班级组成 
的样本。 

46 54 42 46 32 

我们使用符号 XI ，％2，％3, 和 X 5 分别表示这5个班的学生人数。 

X ] =46 X 2 = 54 X 3 =42 X 4 = 46 xs = 32 

因此，计算样本均值，我们有 

一一 X x i 一 xi + X 2 + xs + X 4 + xs 一 46 + 54 + 42 + 46 + 32 = 糾 
n 5 5 

班级人数的样本均值是44人。 

计算样本均值的另一个例子 如下： 假设大学设置办公室向一个商学院毕业生样本发放问卷调 
查表，调查有关起始薪金的信息。表 3.1 显示了收集到的数据，则12个商学院毕业生样本的平均 
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月起薪可计算 如下: 


一 _Xi+X 2 + +X\2 

n _ 12 

2 85 Q + 2 950 + - +2 880 
^ 12 


35 280 
12 


= 2 940 


表 3. 1 12个商学院毕业生样本的月起薪 



Salaries 


毕业生 


月起薪（美元) 


毕业生 月起薪（美元) 


1 

2 850 

7 

2 890 

2 

2 950 

8 

3 130 

3 

3 050 

9 

2 940 

4 

2 880 

10 

3 325 

5 

2 755 

11 

2 920 

6 

2710 

12 

2 880 


公式 (3.1) 说明了具有《个观察值的样本均值是怎样计算的，而计算总体均值的公式也基本 
相同，只是我们使用了与前面不同的符号来表示我们正在处理的完整总体。我们把总体观察值的 
个数记作 7 V ， 总体均值的符号记为^ 

总体均值 

舍 (3.2) 


中位数 

中位数 ( median ) 是对数据中心位置的另一种度量。中位数是当数据按升序排列时，排在中间 
的数据值。当有奇数个观察值时，中位数就是中间的数 据值； 而当有偶数个观察值时，因为不存 
在中间数据，所以在这种情况下，我们遵循惯例，定义中间两个观察值的平均数为中位数。为方 
便起见，我们重新表述中位数的定义 如下： 


中位数作为位置的度量，往往用在年度收入和资产价值数据的报告中，这是因 
为个别异常大的收入或资产价值能够使均值膨胀。在这样的例子中，中位数就是对 
于中心位置更好的度量。 

中位数 

把数据按升序排列（从最小值到最大值）。 

( a ) 有奇数个观察值时，中位数就是中间数据值。 

0>)有偶数个观察值时，中位数是中间两个数据值的平均值。 
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现在，让我们应用该定义来计算5个大学班级样本的班级人数中位数。将数据按升序排列 如下： 

32 42 46 46 54 

因为 n = 5是奇数，中位数就是中间数据值。因此班级人数中位数是46人。即使该数据集中有 
两个值等于46,当我们按升序排列数据时，也应该各自独立地处理每个观察值。 

我们再来计算商学院毕业生的起薪中位数。首先，按升序排列表 3.1 的数据 如下： 

2 710 2 755 2 850 2 880 2 880 2 890 2 920 2 940 2 950 3 050 3 130 3 325 

' -V- 1 

中间两个值 

因为 n = 12 为偶数，我们找到中间两 个值： 2890和2920。中位数是它们的平均数。 

w 冰 2 890 + 2 920 。一 

中位数：---= 2 905 

虽然我们在表示中心位置的度量时，更经常地使用均值，但在某些情况下，用中位数更合 
适。均值会受到异常大和异常小的数据值影响。例如，假设一位毕业生（见表 3.1) 的起薪为每 
月10000美元（也许他的家庭拥有这家公司）。这样我们把表 3.1 的最高起薪数据从3 325美元改 
变为10 000美元，再重新计算均值的话，样本均值也将从2 940美元变到3 496美元。但是，中 
位数仍将保持不变，为2 905美元，因为2 890美元和2 920美元还是中间的两个值不变。当存在 
异常高的起薪的情况下，中位数提供了比均值更好的中心位置度量。我们通常说，当数据集含有 
异常值时，中位数往往更适合于度量数据的中心位置。 

众数 

第三种位置度量是众数 ( mode )。 众数的定义 如下： 

众数是数据集中出现频率最高的数据值。 

为了说明如何得到众数，让我们考虑一个由5个班级人数组成的样本。其中惟一超过一次出现的 
值是46,它发生的频率是2,具有最高的发生频率，因此它就是众数。作为另外一个例子，考虑商学院 
毕业生的起薪样本。只有2 880美元的月起薪出现超过了一次，它拥有最高的频率，因此它是众数。 

我们也经常会遇到两个或更多不同数值拥有相同的最大岀现频率的情况，这时存在着不止一 
个的众数。如果数据正好拥有两个众数，我们把数据称为双峰的。如果数据的众数超过两个，我 
们把这样的数据称为多峰的。在多峰的情况下，几乎不再报告众数。因为列岀三个以上的众数对 
于描述数据的位置并不是特别有用。 


百分位数 


百分位数 ( percentile ) 提供了这样的 信息： 数据是怎样在从最小值到最大值的这个区间内分布 




86 商务与经济统计 


的。对于那些没有多个重复数值的数据，第 p 百分位数把数据分割为了两 部分： 大约有 p % 的观 
察值小于第 p 百分位数，而大约 （100- />)%的观察值大于或等于第 p 百分位数。 

位数 " ~ ~~ 

第 p 百分位数是满足下列条件的一 个值： 至少有的观察值小于或等于该值，至少有 
(100 - p )% 的观察值大于或等于该值。 _ 

大学或学院的入学考试成绩往往以百分位数的形式报告出来。例如，假设一个申请者在入学 
考试的语言部分取得了原始分54分，那么这个学生的表现与参加同样考试的其他学生相比怎样人 
们可能看不清楚，但是，如果原始的54分对应着百分位数为70,我们就能够知道大约有70%的 
学生成绩低于他，而大约30%的学生成绩比 他高。 

下列程序可用来计算第百分 位数： 

遵循这些步骤将使得计算百分位数相当容易。 

计算第 P 百分位数 

步骤 1. 把数据按升序排列（从最小值到最大值）。 

步骤 2. 计算指数 f 

i= (loo) n 

式中的 p 是所需的百分位数， n 是观察值的个数。 

步骤 3. ( a ) 如果〖不是整数的话，则向上取整。用比〖大的下一个整数代表第 p 百分位 

数的位置。 

_ ( b ) 如果 i 是整数的话，第 p 百分位数是第 i 项和第 （i + 1) 项数据的平均值。 

作为该方法的一个示例，让我们来确定表 3.1 的起薪数据的第85百分位数。 

步骤 1. 把数据按升序 排列： 

2 710 2 755 2 850 2 880 2 880 2 890 2 920 2 940 2 950 3 050 3 130 3 325 
步骤 2. 

i= (ife) n= (S 12=10 - 2 

步骤 3. 因为〖不是整数，故向上取整。第85百分位数的位置是大于 10. 2的下个整数，即 
第11项。 

现在回到数据中去，我们看到第85百分位数是第11项的值，即3 130。 

再举一个例子来说明该方法，我们考虑第50百分位数的计算。应用步骤2,我们得到 

£= (^) 12=6 
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因为 i 是整数，步骤 3( b ) 规定第50百分位数是第6和第7项数据的平均值。因此第50百 
分位数是 (2 890 + 2 920)/2 = 2 905。我们注意到第50 百分位数同时也是中位数。 


四分位数 

我们往往需要把数据分成四部分，每部分都包括大约1/4或25%的观察值。图 3.1 显示了被 
分为四部分的数据集，其分割点就称为四 分位数 ( quartiles ) ，它的定义为 

0=第一四分位数，或第25百分位数； 

=第二四分位数，或第50百分位数(也是中位 数)； 

⑦=:第三四分位数，惑第75百分位数。 

四分位数只是一种特殊的百分％数。因此，计算百分位数的步骤也能够直接应 
用于四分位数的计算。 



第一四分位数第二四分位数第三四分位数 
(第25百分位数 ）（ 第50百分位数）（第75百分位数) 

(中 位数） 


图 3.1 四分位数的位置 

把每月起薪数据按照升序重新排列。仏，即第二四分位数（中位数），已被明确为2905。 
2710 2 755 2 850 2 880 2 880 2 890 2 920 2 940 2 950 3 050 3 130 3 325 
<?,和^的计算需要使用计算第25百分位数和第75百分位数的方法。计算 如下： 

对 a 卜 =( 盖 ) 12=3 

因为 i 是整数，根据步骤 3( b )， 第一四分位数，即第25百分位数，是第三和第四项值的平 
均数。因此，<?! = (2 850 + 2 880)/2=2 865 

同样，因为〖是整数，根据步骤 3( b )， 第三四分位数，或第75百分位数，是第九和第十项 
值的平均数。因此，(?3= (2950 + 3050)/2 = 3000( 美元）。 
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四分位数把数值分为四部分，每部分包括25%的观察值。 

2 710 2 755 2 850 2 880 2 880 2 890 2 920 2 940 2 950 3 050 3 130 3 325 

<^=2 865 <?2 = 2 905 Q , = 3 000 

(中位数） 

我们已经把四分位数定义为第25、第50和第75百分位数。因此，我们用和计算百分位数相 
同的方法计算了四分位数。但是，有时也用其他方法来计算四分位数，而且根据所用方法不同，计 
算岀的实际值可能会略有不同。不过，所有计算四分位数方法的目标都是把数据集平分为四部分。 



1. 当数据集含有异常值时，使用中位数作为 
中心位置的度量比均值更合适。有时， 
我们使用另外一种度量方法，即 处理均 
值。 我们删掉数据集中最大的一些值和最 
小的一些值，然后计算剩余数据的均值， 
就能够得到处理均值。例如，我们从数据 
集删除5%最小的和5%最大的数据值， 
再计算剩下数据的均值，得到的就是5% 
处理均值。表 3. 1起薪数据的5%处理均值 


是2 924. 50 0 

2. 探索性数据分析的支持者提议用其他方法 
替代四分位数，把数据集分为四个相等部 
分。该方法的 下临界 点对应于第一四分位 
数，上临界点对应于第三四分位数。因为 
计算方法不同， 临界 点的数值可能和四分 
位数略有差别。但是，它们都能够把数据 
集分成基本相等的四部分。对表 3.1 的起 
薪数据，临界点和四分位数的数值相同。 



方法 

1. 考虑数据值为10, 20，12，17和16的5容量样本，计算其均值和中位数。 

2. 考虑容量为6的样本，其数据值分别是10, 20, 21，17，16和12，计算其均值和中位数。 

3. 考虑容量为8的样本，其数据值分别是27, 25, 20，15, 30, 34, 28和25,计算其第 
20、第25、第65和第75百分位数。 

自测题 

4. 考虑下述样本，数据值分别为53, 55, 70, 58，64, 57, 53, 69，57, 68和53，计算其均 


值、中位数和众数 o 
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应用 


5. 根据美国国家学院和雇主协会 (National Association of Colleges and Employers ) 的薪金调 



CD 光盘数据 
AcctSal 


查，获得会计专业学士学位的工作申请人收到的起始工资待遇在1999年平均为每年 
34 500美元 （Bureau of Labor Statistics , Occupational Outlook Handbook 2000 年第一版 ） o 30 
名 2000 年毕业的会计学学士学位获得者组成了一个样本，其起薪数据如下，数据的单位 
是千美元。 


36. 8 

34.9 

35.2 

37.2 

36.2 

35.8 

36.8 

36. 1 

36.7 

36.6 

37.3 

38.2 

36.3 

36.4 

39.0 

38.3 

36.0 

35.0 

36.7 

37.9 

38.3 

36.4 

36.5 

38.4 

39.4 

38.8 

35.4 

36.4 

37.0 

36.4 


a . 起薪的均值是多少？ 

b . 起薪的中位数是多少？ 

c . 众数是多少？ 

d . 第一四分位数是多少？ 

e . 第三四分位数是多少？ 

6. 越来越多的投资者正在转向打折的经纪人以在买卖股票时节约资金。美囯个人投资者协会对打 
折经纪人进行了一项年度调查。表 3. 2显示了 20个打折经纪人收取的佣金样本，这些经纪人从 
事两类 交易： 以每股50美元的价格买卖500取，和以每股5美元的价格买卖1 000股。 


表 3. 2 打折经纪人收取的佣金 



经纪人 

AcuTrade 


CD 光盘数据 


Discount 


Bank of San Francisco 


Burke Christensen & Lewis 
Bush Burns Securities 


Charles Schwab 
Downstate Discount 


Dreyfus Lion Account 
First Union Brokerage 
Levitt & Levitt 


Max Ule 


佣金(美元) 


500 股，每股50美兀 

38.00 
140. 00 
34.00 
35, 00 
155. 00 
55.00 
154. 50 
140. 00 
35.00 
195. 00 


1 000股，每股5美兀 

48.00 

79.50 
34.00 
35. 00 
90. 00 
60.00 

88.50 
90.00 
70.00 
70.00 
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_ (续表) 

经纪^人 佣金 ( 美 元 ) 



500 股 , 每股 50 美元 

1 000 股，每股 5 美元 

Mongerson & Co 

95.00 

66.00 

Quick & Reilly 

119.50 

60.50 

Scottsdale Securities, Inc. 

50. 00 

63.00 

Seaport Securities Corp. 

50.00 

70.00 

St. Louis Discount 

66.00 

64.00 

Summit Financial Services 

95.00 

60.50 

T. Rowe Price Brokerage 
• 

134. 00 

80. 00 

Unified Financial Services 

154. 00 

90. 00 

Wall Street Access 

45.00 

45.00 

Your Discount Broker 

55.00 

70.00 


资料来源 ： AAII Journal ， January 2000 0 


a . 计算以每股 50 美元买卖 500 股的交易收取佣金的均值、中位数、众数。 

b . 计算以每股5美元买卖1000股的交易收取佣金的均值、中位数、众数。 

c . 哪种交易费用最 高：是 以每股50美元买卖500股，还是以每股5美元买卖1000股？ 

d . 交易的费用是否与交易金额有关？举例来说，当以每股50美元买卖500股时交易金 
额就等于25 000美元。 


平均每人每天花费45分钟来欣赏录音音乐 （ TVieDes Moines Register ， December 5 ， 1997) 。 



CD 光盘数据 


Music 


下列数据是一个 30 人样本花费在欣赏录音音乐上的分 钟数: 


88.3 

4.3 

4.6 

7.0 

9.2 

0.0 

99.2 

34.9 

81.7 

0,0 

85,4 

0.0 

17.5 

45.0 

53.3 

29. 1 

28.8 

0.0 

98.9 

64.5 

4.4 

67.9 

94.2 

7.6 

56.6 

52.9 

145.6 

70.4 

65. 1 

63.6 


a . 计算均值和众数。 

b . 这些数据是否显示出和报纸报道的平均数相一致? 

c . 计算中位数。 

d . 计算第一和第三四分位数。 

e . 计算并解释第40百分位数。 


8^_ 数以百万计的美国人每天早上起来后在家中办公。对个人电脑日渐增长的应用据说是使 

*53^ 更多的人们能够在家处理业务的原因之一。下列是在家工作个人的年龄数据 样本： 

自测题 

22 58 24 50 29 52 57 31 30 41 

44 40 46 29 31 37 32 44 49 29 


a . 计算均值和众数。 
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b . 所有成年人总体的中位数年龄是 35. 1岁 （ U . S . Census Bureau , November 1, 1997) 0 
使用上述数据的中位数年龄，来评论在家办公人士的年龄比所有成年人总体是年轻 
还是年长？ 

c . 计算第一和第三四分位数。 

d . 计算并解释第32百分位数。 


9. Media Matrix 收集的数据显示了人们在家和工作中上网浏览时，最流行的网站名 



CD 光盘数据 
Websites 


(Business Z 0, January 2000) 0 下列数据表示人们在家浏览的前25位网站的个人访问 
者的人数（以1 000人为单 位）： 


网站名 
about, com 
altavista. com 
amazon, com 
angelfire. com 
aol. com 

bluemountainarts. com 
ebay, com 
excite, com 
geocities, com 
go. com 
hotbot. com 
hotmail. com 
icq. com 
looksmart. com 
lycos. com 
microsoft. com 
msn. com 
netscape, com 
passport, com 
real, com 
snap, com 
tripod, com 
xoom. com 
yahoo, com 
zdnet. com 


个人访问者（千人 > 

5 538 
7 391 

7 986 

8 917 
23 863 

6 786 

8 296 

10 479 
15 321 

14 330 
5 760 

11 791 
5 052 

5 984 

9 950 

15 593 
23 505 
14 470 
11 299 

6 785 
5 730 

7 970 
5 652 

26 796 
5 133 


a . 计算均值和中位数。 

b . 你认为使用均值还是中位数来对这些数据的中心趋势进行度量更好一些？并解释。 

c . 计算第一和第三四分位数。 

d . 计算并解释第85百分位数。 
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10. 《洛杉矶时报》定期报道南加州各个地区的空气质量指数。 0 — 50 的指数等级被认为属于良 
好， 51—100 属于一般， 101—200 属于不健康， 201 —275 属于非常不健康，超过 275 则为危 
险。 Pomona 地区最近的空气质量指数是 28, 42, 58, 48, 45, 55, 60, 49 和 50 。 

a. 计算数据的均值、中位数和众数， Pomona 的空气质量指数应该被认为是良好吗？ 

b. 计算 Pomona 空气质量数据的第 25 和第 75 百分位数。 

11. 下列数据表示在20个时间段内——每段包括10分钟一•到达收费站的汽车数，计算数据的 
均值、中位数、众数、第一四分位数以及第三四分位数。 

26 26 58 24 22 22 15 33 19 27 

21 18 16 20 34 24 27 30 31 33 

12. 在汽车的汽油里程数和汽油消粍量测试中， 13 辆汽车分别在城市和乡村行驶 300 英路的路况 
下接受了检测，下列数据记录了它们的每加仑英里数。 

城市： 16.2 16.7 15.9 14.4 13.2 15.3 16.8 16.0 16.1 15.3 15.2 15.3 16.2 
乡村： 19.4 20.6 18.3 18.6 19.2 1T 4 17.2 18.6 19.0 21.1 19.4 18.5 18.7 

运用均值、中位数和众数来评价在城市和乡村路况下汽车性能的差别。 

13. —个包括 15 名大学四年级学生的样本显示了第四年最后一学期学生们得到的学 分数： 


15 21 18 16 18 21 19 15 14 18 17 20 18 15 16 

a. 学分数据的均值、中位数和众数分别是多少？计算并解释。 

b. 计算第 1 和第 3 百分位数。 

c. 计算并解释第 70 百分位数。 


14. 



CD 光盘数据 
Cameras 


由于最近的技术进步，今天的数字相机能够比几年前的同类产品拍出效果更好的图 
片。下列数据显示了 20 款最新型号数字相机样本的零售价格、最大图片容量以及电池 
的使用时间（分钟 ）（PC World ， January 2000) 0 


相机 

价格 ( 美元） 

最大图片容量 

电池使用时间（分钟 ) 

Agfa Ephoto CL30 

349 

36 

25 

Canon PowerShot A50 

499 

106 

75 

Canon PowerShot Pro70 

999 

96 

118 

Epson Photo PC 800 

699 

120 

99 

Fujifilm DX-10 

299 

30 

229 

Fujifilm MX-2700 

699 

141 

124 

Fujifilm MX-2900 Zoom 

899 

141 

88 

HP Photo Smart C200 

299 

80 

68 

Kodak DC215 Zoom 

399 

54 

159 

Kodak DC265 Zoom 

899 

180 

186 

Kodak DC280 Zoom 

799 

245 

143 
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J. C. Clark 

分销公司 


■ 


(续表) 


相机 

价格（美元） 

最大图片容量 

电池使用时间（分钟 ) 

Minolta Dimage EX Zoom 1500 

549 

105 

38 

Nikon Coolpix 950 

999 

32 

88 

Olympus D-340R 

299 

122 

161 

Olympus D-450 Zoom 

499 

122 

62 

Rich 。 RDC-500 

699 

99 

56 

Sony Cybershot DSC-F55 

699 

63 

69 

Sony Mavica MVC-FD73 

599 

40 

186 

Sony Mavica MVC-FD88 

999 

40 

88 

Toshiba PDR-M4 

599 

124 

142 


a . 计算平均价格。 

b . 计算最大图片容量的均值。 

c . 计算平均的电池使用时间。 

d . 如果你必须从上面选择一款相机的话，你会选哪一款？请解释原因。 


3.2 变异程度的度量 

除了位置度量以外，人们往往还需要考虑变异程度，或者说是离散程度。例如，假设你是一 
个大型制造公司的采购代理，定期地向两个不同的供应商订货。经过几个月的运营，你发现两个 
供应商完成订单所需的时间大概都是10天。完成订单所需时间的直方图如图 3. 2所示。虽然两个 
供应商的平均交货日期都是10天左右，但他们在按期交货方面是否拥有相同的可信度？注意直方 
图中的离散程度或变异程度，你会选择哪一家供应商？ 


0.2 


0. 



9 10 11 

工作日数 


0.2 


0.1 


_ _ 

— hH I 


u 


7 8 9 10 11 12 13 14 15 

工作日数 


相对频数 


ply 

p 

s 


司 

公 


)a 


d 


相对频数 


图 3. 2 表示完成订单所需时间的直方图数据 
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对于大多数公司来说，按时收到原材料和货物很重要。从 J . C . Clark 分销公司的直方图来看， 

7 或 8 天的交货时间确实有，但那几个推迟到 13—15 天的交货时间对于保持公司的设备运转和按 
时生产将是灾难性的。这个例子说明，在某些情况下，交货时间的变异程度可能是选择供应商的 
关键考虑因素。对于大多数采购代理而言，只有像 Dawson Supply 公司这样变异程度较低的供应 
者，才是较理想的供货商。 

现在我们来讨论一些常用的变异程度度量。 

极差 

也 许极差 ( range ) 是一种最简单的变异程度度量。 

极差易于计算，但是只对两个数据值 敏感： 最大值和最小值。 

极差 

极差 = 最大值-最小值 

让我们参见表 3.1 的商学院毕业生起始月薪数据，其最高月薪为 3 325 美元，最低月薪为 
2 710 。 极差为 3 325 -2710 = 615 。 

虽然极差是最易于计算的对变异程度的衡量，但是它很少被单独用来度量变异程度。其原因 
是，极差的确定仅仅根据两个观察值，因此极易受到异常值的影响。假设某位毕业生得到了 
10000 美元的起始月薪，则极差将是 10 000-2 710 = 7 290 而不是 615 。 过大的极差将不能准确 
地描述数据的变异程度，因为在 12 个起薪中有 11 个集中在 2 710—3 130 之间。 

四分位点内距 


四分位点内距 (interquartile range , IQR ) 作为变异程度的一种度量，能够克服异常值的影响。 
它是第三四分位数仏和第一四分位数仏的差值。换句话说，四分位点内距就是数据中间 50% 
的距离。 


四分位点内距 

IQR = (?3- <?1 

(3.3) 

对于起始月薪数据， 

四分位数为<? 3 =3 000 和 （?， = 2 865 。 因此， 

四分位点内距等于 


3 000-2 865 = 135 0 

方差 

方差 ( variance ) 是利用所有数据对变异程度进行的度量。它建立在每个观察值（^)和均值之差 
的基础上，每个 A 与均值（样本均值用$表示，总体均值用 / x 表示）的差被称为 关于均值的离 
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差。 对于样本而言，关于均值的离差就记作 （ ^ -5) ;对于总体，则记作在方差的计算 
中，需要把关于均值的离差 平方。 



方差在比较两变量的变异程度时很有用。 


如果数据来自总体，平方离差的平均值就被称 为总体方差， 总体方差用希腊符号 V 表示。 
对于具有 yv 个观察值的总体，用 p 表示总体均值，可以定义总体方差 如下： 


S 体方差 


ZU-/X ) 2 

N 


(3.4) 


在大部分统计应用中，需要分析样本数据。当我们计算 样本方 差时，往往对于如何利用它来 
估计总体方差沪感兴趣。人们能够看到，如果关于样本均值的平方离差之和除以 （ n -1) ，而 
不是〃的话，所得到的样本方差是总体方差的无偏估计，不过对这一问题的详细解释已经超出了 


本课程的范围。鉴于此，由/表示的 样本方 差定义 如下: 


祥本方差 




s 2= IU^)l 

(3.5) 


为了说明样本方差的计算过程，我们使用 3.1 节的5个大学班级样本的班级人数数据。数据 
的有关汇总结果，包括关于均值的离差和均值的平方离差的计算过程，都显示在表 3. 3中。关于 


均值的平方离差之和2(而-幻 2 = 256，并且 ra -1 = 4。因此，样本方差为 


X ~ x ) 2 _ 256 
n ~\ ~:丁 



表 3. 3 对班级人数关于均值的离差和均值的平方离差的计算过程 


班级学生数 

班级人数均值 

关于均值的离差 

关于均值的平方离差 

U) 

{ x ) 

( xi - x ) 

{ xi - x ) 2 

46 

44 

2 

4 

54 

44 

10 

100 

42 

44 

-2 

4 

46 

44 

2 

4 

32 

44 

-12 

144 



0 

256 



Y ,( xi - x ) 

Z (心 -元 ) 2 


在转到#他问题以前，我们注意到样本方差的单位往往会引起人们的困惑。因为在方差计算 
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中需要求和的 数值： （ a -幻 2 , 是平方项，所以样本方差的单位也是平方项。例如，班级人数数据 
的样本方差是 64( 人） 2 。方差的平方单位使得人们很难对方差的数值进行直观的理解和解 
释。我们建议读者把方差作为比较两个以上变量变异程度的有用工具。在变量的比较中，具有更 
大方差的变量，其变异程度也更大。而对于方差数值的进一步解释可能就没看必要了。 

作为说明样本方差计算方法的另外一个例子，我们考虑表 3.1 中12个商学院毕业生的起薪数 
据。在 3.1 节里，我们已经知道起薪样本的均值是2 940。对样本方差的计算结果 （/ = 
27 440.91) 列示在表 3. 4中。 


表 3. 4 起薪数据样本方差的计算过程 


月薪 （: *i) 

样本均值 ( 元） 

关于均值的离差（力-幻 

关于均值的平方离差元 ) 

2 850 

2 940 

-90 

8 100 

2 950 

2 940 

10 

100 

3 050 

2 940 

110 

12 100 

2 880 

2 940 

-60 

3 600 

2 755 

2 940 

-185 

34 225 

2710 

2 940 

-230 

52 900 

2 890 

2 940 

-50 

2 500 

3 130 

2 940 

190 

36 100 

2 940 

2 940 

0 

0 

3 325 

2 940 

385 

148 225 

2 920 

2 940 

-20 

400 

2 880 

2 940 

-60 

3 600 



0 

301 850 



Z (xi-x) 

Z (xi~x) 2 

使用公式 (3_5) 

5 2 

Z(xs~x) 2 301 850 ^ f in ni 

= 1 = 11 =27 440.91 

n - 1 11 



注意到在表 3. 3和表 3.4 中，我们既列出了关于均值的离差之和，也列出了关于均值的平方离差 
之和。对于任何数据集，关于均值的离差之和将总是等于零。我们可以看到，表 3.3 和表 3.4 中的 
2( %-30=0。由于正的离差和负的离差总是相互抵消，导致了关于均值的离差之和等于零。 


标准差 

我们定义标准差 （standard deviation ) 为方差的正平方根。按照以前采用的样本方差和总体方差 


符号，我们以 S 表示样本标准差，以 0 T 表示总体标准差。标准差可以用以下方法从方差推导 而来: 


标准差 

样本标准差 A 2 


(3.6) 


总体标准差二^：： 0 

\ 

(3.7) 
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标准差比方差更易于解释，因为标准差与数据的单位相同 


我们已知 5 个大学班的班级人数的样本方差等于/= 64, 因此样本标准差为@ = 8。对 

于起薪数据集，样本标准差为么 7 440. 91 = 165. 65。 

把方差转换为对应的标准差有什么好处？我们知道与方差相联系的单位是平方项，例如，商 
学院毕业生起薪数据的样本方差等于 / =27 440, 91( 美元) 2 。因为标准差是方差的平方根，则方 
差的单位美元平方就转换为标准差的单位美元。所以起薪数据的标准差是 165. 65 美元。换句话 
说，标准差是以与原始数据相同的单位来度量的。因为这个原因，标准差更易于和单位也与原始 
数据相同的均值等其他统计量进行比较。 


变异系数 


在某些情况下，我们可能对表示标准差与均值相对大小的描述性统计量产生兴趣。它称为变异 


系数 (coefficient of variation ) ，可计算如下: 


変异系数 


标准差 


x 100 


(3.8) 


变异系数是对变异程度的相对度量。它衡量标准差相对于均值的大小。 

对于班级人数数据，我们知道样本均值为 44, 样本标准差为 8。 变异系数等于 (8/44) 
xlOO = 18.2。 简而言之，变异系数说明样本标准差是样本均值的 18.2%。 对于样本均值为 
2 940, 样本标准差为 165.65 的起薪数据，变异系数为 （165.65/2940) x 100 = 5, 6。 它说明样 
本标准差只是样本均值的 5. 6%。一般地，变异系数对于比较具有不同标准差和不同均值的变量 
变异程度，是很有用的统计量。 



1. 我们能够使用统计软件包和分布表来计算本 
章的描述性统计量。把数据输入工作表以 
后，使用几个简单的命令就能够生成需要的 
结果。在附录 3.1 和 3. 2中，我们将演示怎样 
利用 Minitab 和 Excel 来计算描述性统计量。 


2. 标准差通常用来度量与股票投资和股票基金 
投资相关的风险 （ Business Week ，January 17, 
2000)。它给出了每月收益如何围绕长期平均 
收益波动状况的度量。 

3. 当使用计算器计算方差和标准差时，对样本 
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平均数5和平方离差 （ ％ - 紿 2 进行四舍五入处 
理，可能会引起方差或标准差的计算误差。我 
们建议在计算的中间步骤中，保留6位有效数 
字，对得到的方差或标准差可以保留少一些的 
位数。 


4. 另外一个可选的样本方差公式为 

， 'Zxf - wc 2 
S = -；— 

汀 一 1 

式中的 Zxi 2 = 无 1 2 + % 2 2 + …+ o 



方法 

15. 考虑容量为5的样本，数据值分别为10, 20, 12，17和16,计算极差和四分位点内距。 

16. 考虑容量为5的样本，数据值分别为10, 20, 12，17和16,计算方差和标准差。 

17. 考虑容量为8的样本，数据值分别为27, 25, 20，15, 30, 34, 28和25,计算极差、 
IES > 四分位点内距、方差和标准差。 

自测题 


应用 

18. 一位板球投球手在六局比赛中的得分分 别为： 182, 168, 184, 190, 170和174,使用 

这些数据作为样本，计算下列描述性统 计量： 

自测题 

a . 极差。 

b . 方差。 

C. 标准差 o 
d . 变异系数。 


19. 《 PC 世界》给出了销售最好的15种笔记本电脑的评分 (PC World ，February 2000) 0 



CD 光盘数据 
Notebook 


每一种笔记本电脑的测试结果都以100为综合评分的满分。90分以上的分数是优异的， 
而70多分则表示在平均水平以上。被测试过的15种笔记本的综合评分如下 所示： 


笔记本电 _ 

综合评分 

AMS Tech Roadster 15CTA380 

67 

Compaq Armada M700 

78 

Compaq Prosignia Notebook 150 

79 

Dell Inspiron 3700 C466GT 

80 

Dell Inspiron 7500 R500VT 

84 

Dell Latitude Cpi A366XT 

76 

Enpower ENP-313 Pro 

77 

Gateway Solo 9300LS 

92 
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( 续表） 

笔记本电脑 

综合评分 

HP Pavillion Notebook PC 

83 

IBM ThinkPad I Series 1480 

78 

Micro Express NP7400 

77 

Micron TransPort NX P11-400 

78 

NEC Versa SX 

78 

Sceptre Soundx 5200 

73 

Sony VAIO PCG-F340 

77 


计算极差、四分位点内距、方差和标准差。 

20. 《洛杉巩时报 》 （Los Angeles Times ) 定 期报告南加州不同地区的空气质量指数。 Pomona 地区空 
气质量指数值的样本给出了下列数据： 28, 42, 58, 48, 45, 55, 60, 49和50。 

a . 计算值域和四分位点内距。 

b . 计算样本方差和样本标准差。 

c . 从 Anaheim 地区得到的空气质量指数样本的样本均值为 48. 5，样本方差为136，样本标准 
差是 11. 66。在这些描述性统计量的基础上，你对 Pomona 和 Anaheim 的空气质量进行比 
较，能够得到什么结果？ 


21. Davis 制造公司已经使用新工艺完成了 5周运转，据认为这种新工艺能够提高劳动生产率。该 
公司每周生产的部件数是410, 420, 390, 400和380,计算样本方差和样本标准差。 

22. 假设使用下列天数数据来构建直方图，这些天数是 Dawson Supply 公司和 J . C . Clark 分销公司 
为了完成客户订单所需要的（见图3.2)。 

Dawson Supply 公司的交货时间： 11 10 9 10 11 11 10 11 10 10 

Clark 分销公司的交货 时间： 8 10 13 7 10 11 10 7 15 12 

使用极差和标准差来支持这样一种明显的观察结果 : Dawson Supply 公司的交货时间更一致和可靠。 

23. 警察记录显示了冬季样本和夏季样本的每日犯罪报 告数： 



CD 光盘数据 


Crime 


冬季 

18 

20 

15 

16 
21 
20 
12 
16 

19 

20 


夏季 

28 

18 

24 

32 

18 

29 

23 

38 

28 

18 
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a . 计算每个季节的极差和四分位点内距。 

b . 计算每个季节的方差和标准差。 

c . 计算每个季节的变异系数。 

d . 比较两个季节的变异程度。 


24 . 



CD 光盘数据 


Discount 


美国个人投资者协会进行了 一个关于打折经纪人的年度调查 （AAII Journal , January 
1997)。表 3.2 表示了 20个打折经纪人样本收取的佣金数，这些经纪人从事两类交 
易: 以50美元买卖500股和以5美元买卖1 000股。 

a . 计算每种交易类型的极差和四分位点内距。 

b . 计算每种交易类型的方差和标准差。 

c . 计算每种交易的变异系数。 

d . 比较两种交易费用的变异程度。 


25. 生产部门使用抽样方法检验新产品的质量。该部门在检查站应用如不决策 规则： 如果14个产 
品的样本方差超过0.005,则必须关闭生产线进行修理。假如刚收集到下列 数据： 


3.43 3.45 3.43 3.48 3.52 3,50 3.39 

3.48 3.41 3.38 3.49 3.45 3.51 3.50 

生产线应该关闭吗？为什么？ 

26. 下列数据是某大学田径队的队员跑1/4英里和1英里的时间 (隼位为分 ): 

1/4 英里跑 时间： 0.92 0. 98 1.04 0.90 0.99 

1 英里跑 时间： 4.52 4.35 4.60 4.70 4.50 

一位教练在看到这个样本后认为，1/4英里跑的时间更具有一致性。运用标准差和变异系数 
来表示数据的变异程度，使用变异系数来判断教练的说法是否成立？ 


3. 3相对位置的度量和异常值的检测 

我们已经讲述了几种对数据位置和变异程度的度量方法。均值是应用最广泛的位置度量，而 
标准差和方差在度量变异程度时应用最广。只使用均值和标准差，我们也能够对数据在数据集里 
的相对位置了解很多。 

z - 分数 

通过运用均值和标准差，我们能够确定任何观察值的相对位置。假设我们有一个包括 n 个观 
察值的样本，其数值以々，私， ... ，〜表示。另外，还假定样本均值和样本标准差 s 已知。与 
任一数据值&有关的另外一个值被称为该数据值的 z - 分数 （ z - SCOre )。 公式 (3. 9) 显示了怎样计 


算每个 A 的 Z - 分数。 
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z - 分数 

Z i= ^- (3.9) 

S < 

式中 z ,- ——％的分数； 

无——样本均值； 
s ——样本标准差。 

z - 分数往往被称为标准化值。标准化值或者说是 z - 分数 Zi ， 可以被认为是 JC , •距均值的标 
准差个数。例如， = 1.2 就表示 A 比样本均值大 1.2 个标准差。类似地， Z 2=-0.5 表示幻比 
样本均值小 0.5 或 1/2 个标准差。我们还注意到当观察值大于均值时， z - 分数将大 于零； 而当 
观察值小于均值时， z - 分数将小于零。 z - 分数为零则表示观察值等于均值。 

任何观察值的 z - 分数都可看做是对数据集中观察值的相对位置度量。因此，两个不同数据 
集的观察值若具有相同的 z - 分数，则可以根据它们距离均值的标准差个数相同这个事实，而认 
为它们具有同样的相对位置。 

班级人数的分数列于表 3.5 内。我们已知样本均值$ = 44,样本标准差 5 = 8,其计算过 
程参见有关章节。第五观察值的 z - 分数为 -1.50, 显示出它离均值最远，位于均值之下 1.50 个 
标准差。 


表 3. 5 班级人数的 z - 分数 


班级学生数 

关于均值的离差 

分数 

(- ti ) 

(Xi - x ) 

(宁） 

46 

2 

2/8=0. 25 

54 

10 

10/8 = 1.25 

42 

-2 

-2/8 = - 0.25 

46 

2 

2/8=0.25 

32 

-12 

-12/8= -1.50 


切比雪夫定理 

借助于切比雪夫定理 ( Chebyshev’s theorem ) ， 我们能够指出那些距离均值必定在某个特定标准 
差个数以内的数据项占数据总数的比例。 

切比雪夫定理要求 Z >1, 但 z 不必是整数。练习27就涉及到了大于1的非整数 Z 值。 
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功比雪夫定理 

与均值的距离必定在 z 个标准差以内的数据比例至少为 （ l -1/ z 2 ) ，这里的 z 是大于1的 
任何值。 

z = 2, 3, 4个标准差时，该定理的一些应用 如下： 

•至少 0.75 或75%的数据项与均值的距离在 z = 2个标准差以内。 

•至少 0.89 或89%的数据项与均值的距离在 z = 3个标准差以内。 

•至少 0.94 或94%的数据项与均值的距离在 z = 4个标准差以内。 

作为切比雪夫定理的一个应用例子，假定在某学院商务统计课程的期中考试中，100个学生 
的成绩均值为70,标准差为5。那么有多少学生的考试成绩在 60—80 之间？有多少学生的成绩在 
58—82 之间？ 

对于 60—80 的成绩，我们注意到60低于均值2个标准差，而80高于均值2个标准差。运用 
切比雪夫定理，我们可以看到至 >0.75 或75%的观察值必定距离均值2个标准差以内。因此， 
100个学生中至少有75个一定取得了 60—80 的分数。 

对于58到82的考试分数，我们看到， （58 -70)/5 = -2. 4表示58低于均值 2. 4个标准差， 
(82-70)/5= +2.4 表示82高于均值 2.4 个标准差。应用切比雪夫定理且 z = 2. 4,我们有 

( 1_ *) = [ 1_ T ^] = °- 826 

至少有 82. 6%的学生成绩必定在58到82之间。 

经验法则 

切比雪夫定理的优点之一就是它适用于任何数据集而无论数据是怎样分布的。但是在实际应 
用中，人们发现许多数据集具有类似图 3. 3所显示的峰形或钟形分布。当数据被认为具有类似这 
样的分布时，我们就能够运用经验法则 (empirical rule ) 来确定与均值距离在某特定的标准差个数以 
内的数据项所占的百分比。 

经验法则建立在正态概率分布的基础之上。对于正态分布，我们将在第6章予以介绍， 

它在本书中的应用非常广泛。 

^€验法则 

对于具有钟形分布的 数据： 

• 大约68%的数据项与均值距离在1个标准差以内。 

•大约95%的数据项与均值距离在2个标准差以内。 

•几乎所有的数据项与均值距离在3个标准差以内。 
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例如，在生产线上对去污液包装盒进行自动装填,填充重量具有钟形分布。如果填充重量的 
均值为16盎司，标准差为 0.25 盎司的话，我们能够使用经验法则得到下列 结论： 

• 大约68%的填充后的包装盒重量在 15. 75和 16. 25盎司之间（也就是说，距均值1个标准 
差之内）。 

•大约95%的填充后的包装盒重量在 15. 50和16, 50盎司之间（也就是说，距均值2个标准 
差之内）。 

•几乎所有填充后的包装盒重量都在 15. 25和 16. 75盎司之间（也就是说，距均值3个标准 
差之内）。 


异常值检测 

有时数据集含有一个或多个数值异常大或者异常小的观察值，像这样的极端值被称为 异常值 
( outliers ) o 有经验的统计人员会采取一定的步骤识别出异常值，并对每一个异常值进行仔细的检 
查。异常值可能是被不正确记录的数据值，则我们可以在进一步分析之前把它更正。异常值也可 
能是本不应当包括进数据集的观察值，那么我们可以把它删掉。也许，异常值只是数值不太正 
常，它并未记录错误，也确实属于数据集。在这种情况下，该数据项应该保留。 

基于数据分析，做决策之前检测异常值是很有意义的。数据记录中经常会有误差并 
被输入计算机，异常值并非都要删除，但它们的精确度和适应性应予以确认。 


标准化值 （ Z - 分数）可以帮助我们鉴别异常值。刚刚学过的经验法则使我们能够得出 结论： 
对于具有钟形分布的数据而言，几乎所有的数据项都距离均值在3个标准差以内。所以，在应用 
z - 分数鉴别异常值时，我们建议把分数小于 -3 或大于3的任何数据项都作为异常值。然 
后，对它们的准确性进行检查，以确定它们是否属于数据集。 
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参见表 3.5 班级人数数据的分数， -1.50 的 z - 分数表明第五项距均值最远，不过它的 
标准化值仍在判断值的标准限 -3 —+ 3 以内。因此，根据 z - 分数，班级人数数据中没有异常值。 



1. 切比雪夫定理可应用于任何数据集，并能够 
指出距离均值在某个标准差以内的数据项的 
最少个数。如果已知数据集近似呈钟形分布 
的话，则这样的数据项个数会比切比雪夫定 
理指出的更多。例如，经验法则让我 们确信 
有95%的数据项距离均值在2个标准差以 
内，而切比雪夫定理指出在同一区间内的个 


数比例则至少为75%。 

2. 在对数据集进行分析之前，统计人员通常会 
作各种检查以确保数据的有效性。大型研究 
活动中，在记录数据或向计算机输入数据的 
过程中往往会出现误差。鉴别异常值是检查 
数据有效性的一个工具。 



方法 


27. 



自测题 


考虑均值为30而标准差为5的样本，运用切比雪夫定理来确定处于下列范围内的数据 
比例或者百分比。 

a . 20——40 b . 15——45 c . 22——38 d . 18——42 e . 12——48 


28. 数据具有钟形分布，其均值为30,标准差为5,使用经验法则来确定处于下列范围内的数据 
比例或百分比。 

a . 20—40 b . 15—45 c . 25—35 


29. 考虑容量为5的样本，各项数据的值分别为10, 20, 12, 17，16，计算这5个数据值中每个 
Z -分数。 


30. 考虑均值为500而标准差为100的样本。对于数据值520, 650, 500, 450, 280,每个值的 
z -分数是多少？ 


应用 

31.对1 154个成人的美国国内调查结果显示，他们在工作日中每天平均睡眠 6.9 小时 （2000 0 m - 
nibus Sleep in America Poll ) 。假定标准差是 1.2 小时。 

a . 使用切比雪夫定理计算每天睡眠时间在 4.5 到 9.3 小时之间的人数百分比。 
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b . 使用切比雪夫定理计算每天睡眠时间在 3. 3— 9. 9小时之间的人数百分比。 

c . 假定睡眠小时数是钟形的，使用经验法则计算每天睡眠时间处于 4.5 — 9.3 小时之间的人 
数百分比。这个结果与 （ a ) 中用切比雪夫定理计算出的值相比怎样？ 

32. 根据 ACNielseri 的调查，年龄在 12 — 17 岁之间的少年，在 8 月份结束的广播年度内平均每天 
看 3 个小时的电视 （ Barron' s, November 8, 1999) 。 假定标准差是 1 小时，看电视的时间数据 
具有钟形 分布。 

a. 年龄在 12 —17 岁的少年中，每天看 2—3 个小时电视的占多大百分比？ 

b . 年龄在12_17岁的少年中，每天看1 一4个小时电视的占多大百分比？ 

c . 年龄在 12—17 的少年中，每天看4个小时以上电视的占多大百分比？ 


33. 假设 IQ 分数具有钟形分布，其均值为100,标准差为15。 

a . IQ 分数在 85—115 之间的人士占多大百分比？ 

b . IQ 分数在 70— 130之间的人士占多大百分比？ 

c . IQ 分数超过130的人士占多大百分比？ 

d . IQ 分数超过145的人被认为是天才。经验法则支持这种说法吗？请解释。 


34. 在芝加哥修理彩电的平均人力成本是 90. 06美元 ( The Wall Street Journal ， January 2, 1998) 。 
假设标准差是 20 美元。 

a . 人力成本为 71 美元的修理工作的 Z - 分数是多少? 

b . 人力成本为168美元的修理工作的分数是多少？ 

c . 解释 ( a ) 和 ( b ) 中的 z - 分数。说明它们是否都应被认为是异常值。 


35. 



CD 光盘数据 
WageWeb 


Wageweb 进行了 一个关于薪资数据的调查，并在它的网站上公布了汇总结果。应用 
2000年1月1日的薪资数据， Wageweb 报告说捐赠基金的经理薪金在50 935 美元一 
79 577美元之间 （ Wageweb . com，April 12, 2000) 。假定下列数据是来自由30位捐赠 
基金经理的年薪组成的样本（数据以千美元为单 位）： 


57.7 

64.4 

62. 1 

59. 1 

71. 1 

63.0 

64.7 

61. 2 

66.8 

61.8 

64.2 

63.3 

62. 2 

61.2 

59.4 

63.0 

66.7 

60. 3 

74.0 

62. 8 

68.7 

63. 8 

59. 2 

60.3 

56.6 

59.3 

69,5 

61,7 

58.9 

63. 1 


a . 计算样本数据的均值和标准差。 

b . 使用 （ a ) 中计算出的均值和标准差作为捐赠基金经理总体薪金均值和标准差的估计值。 
运用切比雪夫定理来确定年薪在53000美元一71000美元之间的经理所占的百分比。 

c . 构建样本数据的直方图。它的形状是否说明年薪数据大致属于钟形分布的假定是合 
理的？ 

d . 假定年薪的分布是钟形分布。使用 U ) 中计算出的均值和标准差作为捐赠基金经理 
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36. 



CD 光盘数据 
NBA 


37. 



CD 光盘数据 
Speakers 


总体薪金均值和标准差的估计值。运用经验法则来确定年薪在53 000 美元一 71 000美 
元之间的经理所占的百分比，并将答案与 （ b ) 中的计算结果相比较。 
e . 样本数据中是否包含任何异常值？ 

一个由10支 NBA 球队得分组成的样本提供了下列数据 （ Today ， April 14, 2000) : 


获胜队 

得分 

失败队 

得分 

得分差距 

费城 

93 

华盛顿 

84 

9 

夏洛特 

119 

亚特兰大 

87 

32 

密尔沃基 

101 

克利夫兰 

100 

1 

印第安纳 

77 

多伦多 

73 

4 

西雅图 

110 

明尼苏达 

83 

27 

波士顿 

95 

奥兰多 

91 

4 

底特律 

90 

迈阿密 

73 

17 

纽约 

91 

新泽西 

89 

2 

犹他 

102 

洛杉矶快艇 

93 

9 

菲尼克斯 

122 

温哥华 

116 

6 


a . 计算获胜队伍得分数的均值和标准差。 

b . 假设所有 NBA 比赛获胜队伍的得分数呈钟形分布。使用 ( a ) 中计算出的均值和标准差 
作为所有 NBA 比赛总体得分均值和标准差的估计值，估计获胜队得分超过100的比 
赛场次所占的百分比。估计获胜队得分超过114的比赛所占的百分比。 

c . 计算得分差距的均值和标准差。得分差距数据中是否包含任何奇异值?请解释。 

《消费者评论》 （ Consumer Review) 邮寄对因特网上各种产品的评论和得分情况。下面是一 
个20种杨声器系统的样本和在1998年1月2号邮寄的得分情况（见 http : // 
www . audioreview , com )。 得分的范围从1到5, 5分为最好。 


扬声器 

得分 


得分 

Infinity Kappa 6. 1 

4. 00 

ACI Sapphire III 

4:67 

Allison One 

4. 12 

Bose 501 Series 

2. 14 

Cambridge Ensemble II 

3.82 

DCM KX-212 

4.09 

Dynaudio Contour 1. 3 

4.00 

Eosone RSF 1000 

4. 17 

Hsu Rsch. HRSW 12V 

4. 56 

Joseph Audio RM 7si 

4. 88 

Legacy Audio Focus 

4. 32 

Martin Logan Aerius 

4.26 

Mission 731i 

4.33 

Omni Audio SA 12. 3 

2. 32 

PSB 400i 

4.50 

Polk Audio RT12 

4.50 

Snell Acoustics DIV 

4.64 

Sunllre True Subwoofer 

4. 17 

Thiel CS 1. 5 

4.20 

Yamaha NS-A636 

2. 17 


a . 计算均值和中位数。 

b . 计算第一和第三四分位数。 
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c . 计算标准差。 

d . 与 Allison One 和 the Omni Audio SA 12. 3 两种扬声器相联系的 z - 分数分别是多少？ 

e . 数据中是否含有异常值？请解释。 


3.4 探索性数据分析 


在第2章我们介绍了作为一种探索性数据分析技术的茎叶显示。我们知道探索性数据分析使 
我们能够运用简单的数学和易画的图形来汇总数据。在本节，我们将继续介绍探索性数据分析技 
术的两种 方法： 五数概括法和箱形图。 

五数概括法 

在五数概括法 ( five-number summary ) 中，使用下列五个数字来汇总数据： 


1. 最小值； 

2. 第一四分位数（❽）； 

3. 中位数 ( Qi ) ; 

4. 第三四分位数（仏）； 

5. 最大值。 

构建五数概括法最容易的方法是首先按照升序排列数据，然后再确定最小值、第三四分位数和 
最大值。在这里把表 3.1 的12个商学院毕业生样本的起始月薪数据按照升序重复 如下： 

2 710 2 755 2 850 2 880 2 880 2 890 2 920 2 940 2 950 3 050 3 130 3 325 

(?i =2 865 Qi =2 905 (? 3 = 3 000 

(中位数） 

在 3. 1节我们已经计算过中位数2 905和第一四分位数⑦= 2865和第三四分位数仏=3000。 
而最小值为2 710,最大值为3 325。因此对薪金数据的五数概括为2 710, 2 865, 2 905, 3 000, 

3 325。大约有1/4或25%的观察值在五数概括的邻近两个数之间。 

箱形图 

箱形图 （box plot ) 是基于五数概括法的数据图形汇总方法。构建箱形图的一个关键是计算中位 
数及四分位数&和还需要使用四分位点内距 IQR = 0。图 3. 4就是起始月薪数据的箱 
形图。具体的做图步骤 如下： 

1. 画箱形图时，把第一和第三四分位数作为箱体的边缘。起薪数据的0=2 865, ^3 = 
3 000。该箱体包含了数据中间的50%。 
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2. 在中位数（对于起薪数据是 2905) 位置于箱体内画一条垂线，因此中位数线就把数据平 
分为两部分。 

3. 通过使用四分位点内距 IQR= 仏，定好界限的位置。箱形图的界限位置是在低于 

01.5 倍 IQR 处和高于 01.5 倍 IQR 处。对于起薪数据， IQR= Q , - <?i = 3 000 - 

2 865 = 135 o 因此，界限位置就是2 865 - 1.5 x 135 =2 662.5 和3 000 + 1.5 x 135 = 

3 202.5。界限外面的数据可被认为是异常值。 

4. 图 3.4 中横的那根线被称做须线。须线从箱体边缘一直画到步骤3计算出的界限以内最小 
和最大值处。因此在本例中须线的尽头在2710和3 130处。 

5. 最后，每个异常值的位置用符号*来表示。在图 3.4 中，我们看到了一个异常值3 325。 

箱形图提供了另一种鉴别界限位置的方法，但它们不必要鉴别那些小于 -3 或大于 
+ 3 的 z 值。可以选择一种或两种界限。 


下界限 




上界限 


L 5( IQR ) 



1.5( IQR )- 


异常值 


氺 


2 400 


2 600 


2 800 


?000 


3 200 


3 400 


图 3. 4 带有下界限和上界限的显示线条的起薪数据箱形图 


在图 3.4 中，我们包括了显示界限位置的线条。画这些线是为了表示计算出的界限值是多少 
以及它们的位置怎样。虽然总是需要计算界限，但通常在箱形图中并不画出它们。图 3. 5是起薪 
数据的箱形图的一般形状。 



2 400 2 600 2 800 3 000 3 200 3 400 


图 3. 5 起薪数据的箱形图 
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1. 我们使用箱形图鉴别出的异常值与利用小于 
-3或大于+3的 z - 分数挑选出的异常值 
可能相同也可能不同。不过，所有方法都是 
为了识别出那些应被再次检查以确保其有效 
性的数据项。对每种方法鉴别出的异常值都 
应该再进行检查。 

2. 探索性数据分析的优点是它们易于使用，并 
且不需要很多数学计算。我们只需简单地把 


数据项按升序排列，并找到中位数和四分位 
数和03，就可以得到能够概括的五个 
数。我们能够很容易地确定界限和箱形图。 
该方法不需要计算数据的均值和标准差。 

3. 在附录3.1，我们将演示如何利用 Minitab 
构建起薪数据的箱形图。这样得到的箱形图 
看起来很像图 3.5 中的那个，只是角度旋转 
了 90°o 



方法 

38. 考虑容量为8的样本，其数据值分别为27, 25, 20，15, 30, 34, 28和25。作出数据的五数 
概括。 

39. 作出练习38中数据的箱形图。 

40. 给出以下数据： 5, 15, 18，10, 8，12，16，10和6。作出它们的五数概括和箱形 
图 

自测题 m ° 

41. 数据集的第一四分位数是42,第三四分位数是50。计算其下界限和上界限。数据值65是否 
应被当做异常值？ 


应用 


42. 



CD 光盘数据 


ReEquity 


管理的目标是相对于投入的资本挣得尽可能多的利润。判断这种努力成功与否的一个 
尺度是权益收益率——即净收入与股东权益的比率。下面是25个公司的权益收益百分 
比 (Standard & Poor's Stock Reports , November 1997) : 


9.0 

19.6 

22.9 

41.6 

11.4 

15.8 

52.7 

17.3 

12.3 

5. 1 

17.3 

31, 1 

9.6 

8.6 

11.2 

12.8 

12.2 

14.5 

9.2 

16.6 

5.0 

30.3 

14.7 

19.2 

6.2 
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a . 作出五数概括。 

b . 计算下界限和上界限。 

c . 有异常值显示出来吗？该信息对财务分析有什么帮助? 

d . 作出箱形图。 


43. 21个制药公司的以百万美元为单位的年销售收入 如下: 



8 408 

1 374 

1 872 

8 879 

2 459 

11 413 

自测题 

608 

14 138 

6 452 

1 850 

2 818 

1 356 


10 498 

7 478 

4 019 

4 341 

739 

2 127 


3 653 

5 794 

8 305 





a . 作出五数概括。 

b . 计算下界限和上界限。 

c . 有异常值显示出来吗？ 

d . 表中强生公司的销售额最大，为14 138百万美元。假设输入数据时发生误差（调换 
了数字位置），输入的数据是41 138百万美元。在 （ c ) 中用于检测异常值的方法能够 
发现问题并更正数据输入误差吗？ 

e . 作出箱形图。 


44. 



CD 光盘数据 
Options 


公司股票购买计划经常作为对股东的奖励而推出。但是 ， Robert Gabele - First Call / 

Thomson Financial 的内部研究主任，已经注意到在这些计划中有许多仅仅是作为对高级 
管理者的激励选择方案而执行的，目的是使他们能够获得股票。所有公司在1998年现存 
的股票期权占所有非流通普通股的6.2%。下表数据显示了 15个公司期杈授予的股数 
和非流通股数。税 oomhrg 期刊确认了这些公司需要重新购买的非流通股所占的百分比 
最高，才能满足授予期权的需要 （ Bloomberg personal Finance , January / February 2000) 0 


公司 

期权授予的非流通股数 

非流通普通股股数 


( 百万） 

( 百 万） 

Adobe Systems 

20.3 

61.8 

Apple Computer 

52.7 

160.9 

Applied Materials 

109. 1 

375.4 

Autodesk 

15.7 

58.9 

Best Buy 

44.2 

203.8 

Cendant 

183.3 

718. 1 

Dell Computer 

720.8 

1 2 540.9 

Fruit of the Loom 

14.2 

66.9 

ITT Industries 

18.0 

87.9 

Merrill Lynch 

89.9 

365.5 

Novell 

120.2 

335.0 

Parametric Technology 

78.3 

269.3 
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公司 

Reebok International 
Silicon Graphics 
Toys R Us 


期权授予的非流通股数 

(百万） 

12. 8 

52.6 

54. 8 


(续表） 

非流通普通股股数 

(百万） 

56. 1 

188.8 

247.6 


a . 期权授予的非流通股数的均值和中位数是多少？ 

b . 期权授予的非流通股数的第一和第三四分位数是多少？ 

c . 对于期权授予的非流通股数，是否含有异常值？作出箱形图。 

d . 计算期权授予的非流通股数与非流通的普通股数比例的百分比均值。该百分比与所 
报告的所有公司在1998年 6. 2%的百分比相比怎样？ 


45. 



CD 光盘数据 
Injury 


公路损失数据研究机构的伤害和碰撞损失实验报告根据事故后的保险索赔数字，对轿 
车型号进行评分。接近100的指数得分被认为是平均水平，较低的得分意味着更好、 
更安全的轿车型号。下列数据是20款中型轿车和20款小型轿车的# 分： 


中型 轿车： 

81 

91 

93 

127 

68 

81 

60 

51 

58 

75 


100 

103 

119 

82 

128 

76 

68 

81 

91 

82 

小型轿车： 

73 

100 

127 

100 

124 

103 

119 

108 

109 

113 


108 

118 

103 

120 

102 

122 

96 

133 

80 

140 


分别汇总中型和小型轿车的数据。 

a . 分别作出中型和小型轿车的五数概括。 

b . 作出箱形图。 

c . 说明你的汇总里关于中型轿车和小型轿车安全性的比较结果。 


46. 



CD 光盘数据 
World 


Birinyi Associates 公司对全球股票市场进行了调查， 
3.6 汇总了包括30个国家和地区的样本结果。 

a . 它们的变动百分比的均值和中位数是多少？ 

b . 第一和第三四分位数是多少？ 

c . 有异常值吗？作出箱形图。 

d . 对美国市场，你报告的百分位数是多少？ 


以评估它们在1997年的表现。表 


表 3. 6 全球股票市场1997年价值变动百分比 


国家和地区 

变动百分比 

国家和地区 

变动百分比 

阿根廷 

24. 70 

澳大利亚 

7. 91 

巴林 

49.67 

巴巴多斯 

48. 29 

百慕大 

51.92 

巴西 

44. 84 

智利 

12.80 

哥伦比亚 

69.60 

克罗地亚 

-1.07 

捷克共和国 

-3. 25 
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(续表) 


国家和地区 

变动百分比 

国家和地区 

变动百分比 

厄瓜多尔 

5.37 

爱沙尼亚 

62. 34 

芬兰 

32.31 

德国 

47. 11 

希腊 

59. 19 

印度 

18. 60 

以色列 

27. 91 

日本 

-21. 19 

立陶宛 

16. 82 

墨西哥 

54. 92 

纳米比亚 

6.52 

尼日利亚 

-7. 97 

巴拿马 

59.40 

波兰 

2. 27 

俄罗斯 

125. 89 

斯洛文尼亚 

18. 71 

斯里兰卡 

15.49 

台湾 

18. 08 

土耳其 

254. 45 

美国 

22.64 


资料来源 t Wall Street Journal, January 2, 1998 0 


3.5 两变量间关系的度量 


到现在为止我们已 经讲述 了用来 汇总同一时间一个变量数据 的数值方法。 但经 理们或者决策 
者往往还对两变量间的关系感兴趣。在本节我们将讨论 描述两变量间关系的 参数： 协方差和相关 
系数。 

我们重新考虑 2. 4 节中关于旧金山音像设备商店的例子。商店的经理想要调查在下列期间周 
末播出的电视广告次数和商店销售额之间的关系。表 3.7 中每星期有一个观察值 （n = 10), 列出 
了以百美元为单位的销售额样本数据。图 3.6 的散点图显示出二者之间存在一种正的相关关系， 
较高的销售额 （ y ) 与较多的广告数 U ) 相联系。事实上，散点图提示我们可以用一条直线来大概 
描述这种线性关系。在下面的讨论中，我们将介绍 协方差 （ covariance ), 将其作为两变量间线性关 
系的描述性度量。 

表 3. 7 音像设备商店的样本数据 



CD 光盘数据 


Stereo 


星期 

1 

2 

3 

4 

5 

6 
7 


9 

10 


广告数1： 

2 

5 


4 
1 

5 

3 

4 
2 


销售额 : y (100 美元) 
50 
57 
41 
54 
54 
38 
63 
48 
59 
46 
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65 


y 


60 


8 55 

额- 


O 

美45 


% 

^ 40 


35 I 
0 





1 I 

2 3 
广告数 

图 3. 6 音像设备商店的散点图 



协方差 

对于容量为 n ， 观察值为（^， yi ), ( a , h ) 等的样本， 样本协方 差定义如下: 



该公式中，一个&与一个％相配对。我们把每个^与样本均值的离差乘以相对应的 > 与样 
本均值的离差，再把各个结果加总起来，然后除以 n-lo 


为了度量在音像设备商店问题中广告次数％与销售额 y 之间线性关系的强度，我们用公式 
(3.10) 来计算样本协方差。表 3. 8 显示了 Z (力 - -歹）的计算过程。注意到无= 30/10 =3 并 


表 3. 8样本协方差的计算 



XI 

yi 

Xi 

yt -y 



2 

50 

-1 

-l 

1 


5 

57 

2 

6 

12 


1 

41 

-2 

-10 

20 


3 

54 

0 

3 

0 


4 

54 

1 

3 

3 


1 

38 

-2 

-13 

26 


5 

63 

2 

12 

24 


3 

48 

0 

-3 

0 


4 

59 

1 

8 - 

8 


_2 

46 


^5 

_5 

总计 

30 

510 

0 

0 

99 




Z .(^» _ ^)( ri _ r ) 99 

=11 





n 一 1 "10-1 
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且歹= 510/10= 51。 利用公式 (3. 10)， 我们得到样本协方差为 


S X y = 


X ( xj - x )( Yi ~ r ) _ 99 


计算容量为/ V 的总体协方差的公式与公式 (3. 10) 类似，但是我们使用不同的符号来表示我们 
正在处理的是完整的总体。 


在公式 （3. 11) 中，我们使用符号叫表示变量％的总体均值，用符号外表示变量： r 的总体均 
值。定义 ov 为容量为/ V 的总体的总体协方差。 

协方差的解释 


协方差是两变量间线性关系的度量。 


为了有助于对样本协方差进行解释，我们参考图3.7。它与图 3.6 的散点图相同，只是在5 = 3处 
带有垂直虚线，在 F = 51 处带有水平虚线。这两条线把图分成四个部分 ：区域 I 内的点对应着大于无的 
%和大于 y 的％;区域 II 内的点对应着小于5的&和大于7的，依此类推。因此，对于区域 I 内的点， 
(%-幻（％的值一定为正，区域 n 内的点其值为负，区域 n [内的点其值又为正，而区域 iv 内的点 
其值为负。 

如果_的值是正值，那么对％具有最大影响的点一定在区域 I 和1。因此，~为正值就表 
示％ 和 y 之间存在正线性关系。也就是说，当％的值增大时， y 的值也增大。如果&的值为 
负，对它具有最大影响的点一定在区域 II 和 IV 。因此，的负值就 表明％ 和 y 之间存在负线性关 
系。也就是说，当％的值增大时， y 的值减小。最后，如果各点是均匀地分布在四个区域内，则 
~的值将接近于零，表示％和 y 之间不存在线性关系。图 3. 8显示了与三种不同的散点图形式相 




0 5 0 5 0 
6 5 5 4 4 


销售额(百美元) 


图 3. 7 音像设备商店的分区散点图 
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对应的 h 值。 

再次参考图3.7,我们看到音像设备的散点图属于图 3. 8顶部的那种类型，正如我们所期望 
的，样本协方差的值为正，等于& = 11。 


h 为 正值： 

U 和 y 正线性相关) 




參 


參 


• • 


春 • 


x 


~大约 为零： 

U 和 y 无线性相关） 




參 


• 參 


參 






參 


參 


參 






x 


參 






參 


~为负值 

u 和 y 负线性相关） y 







图 3. 8 对样本协方差的解释 
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通过以上讨论，看起来如果协方差为大的正值，就表示存在强烈的正线性 关系； 如果协方差 
为大的负值，就表示存在强烈的负线性关系。不过，在使用协方差作为线性关系强度的度量 
时，存在的一个问题是我们得到的协方差值依赖于对％和 y 进行度量的单位。例如，假定我 
们对人们的身高 x 和体重 y 之间的关系感兴趣。很明显，不管我们使用英尺还是英寸来度量 
身髙，二者关系的强度都应该相同。可是，当高度以英寸为单位时，对于（&_幻的数值，我 
们的计算结果比采用英尺度量时要大得多。因此，高度单位用英寸时，公式 (3. 10) 中的分子 
-5)(% -50 数值会更大，这样，协方差也就会更大。但实际上在这两种情况下二者关系 
并没有任何差别。使用相关系数 (correlation coefficient ) 能够避免这种麻烦，并且也能够对两变量间 
的关系进行度量。 


相关系数 


对于样本数据，皮尔逊 ( Pearson ) 积矩相关系数的定义 如下: 


S 尔逊积矩相关 系数： 祥本数据 

Sxr 

T X y = 

(3.12) 

式中 r xy 样本相关系数； 

Sxy 样+协力差； 

& % 的样本标准差； 


m 

s y y 的样本标准差。 




公式 (3. 12) 表示样本数据的皮尔逊积矩相关系数（一般简称为样本相关系数）的计算方法 
是： ％的标准差和 y 的标准差的乘积与样本协方差相除。 

现在让我们来计算音像设备商店的样本相关系数。使用表 3. 7的数据，我们能够得到两个变 
量的样本标准差 


Z (xj-x ) ： 

n - 1 


20 


9 


= 1.490 7 




[566 
9 




7. 930 3 


现在，因为^ = 11，我们得到样本相关系数为 


Sxjr 11 

r * y = 咏二 (1.490 7)(7.930 3) 


= 0.93 


总体相关系数用希腊字母表示，计算公式 如下: 
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皮尔迸积矩相关系数 •. 总体数据 



(Tty 

Pxy : cr x ( r y 

% 

(3.13) 

式中 P 巧 一 

一 总体相关系数； 


(Jxy — 

一总体协方差； 


a x —— 

— ^的总体标准差； 


O-y — 

一 y 的总体标准差。 



样本相关系数 7 V 是对总体相关系数 Pq 的一个估计。 


相关系数的解释 

首先让我们考虑一个简单的样本，以说明完全正线性关系的概念。图 3. 9的散点图描述了下 
列样本 数据％ 和 y 之间的 关系： 



\ 


5 

10 

10 

30 

15 

50 


r 



经过这三个点的直线显示了在； C 和 y 之间存在着完全线性关系。为了应用公式 (3. 12) 计算 
样本相关系数，我们必须首先计算 h ， &和一些必要的计算过程列示在表 3. 9中。使用表 
3 . 9的结果，我们有 


Sxy = 


Y,{xi-x)(yj-y) _ 200 
n ~ \ 2 


= 100 
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土 _ 

100 





~_瑪_5><20 叫 

因此，我们看到样本相关系数的值为1。 

表 3. 9 计算样本相关系数的计算过程 





X / 

yi 

Xi-X 

(Xt-X ) 2 

yi -y 

(yi-y) 2 


5 

10 

-5 

25 

- 20 

400 

100 

10 

30 

0 

0 

0 

0 

0 

J 5 

50 

5 

25 

20 

400 

100 

总计 30 

无=10 

90 

r = 30 

0 

50 

0 

800 

200 


一般地，我们发现如果数据集内所有的点都在一条正斜率直线上的话，则样本相关系数的值 
为+ 1。也就是说，样本相关系数+ 1对应于 x 和 y 的完全正线性关系。如果数据集内所有的点 
都在一条负斜率直线上的话，则样本相关系数的值为-1。即样本相关系数 -1 对应于； c 和 y 的完 
全负线性关系。 

现在，我们假定某个数据集表明； c 和 y 之间存在着正线性关系，但不是完全线性。那么 ，/V 
的值将小于1，在散点图上就表现为所有的点不在一条直线上。当数据集内的点越来越偏离完全 
正线性关系时，~的值就变得越来越小。当~等于零时就表示； c 和 y 之间不存在线性关 
系，~的值接近于零则表示弱线性关系。 


相关系数的范围是从 -1 到+1。接近于-1或+ 1的值表示强的线性关系，而相关系 
数与零越接近，线性关系也越弱。 

对于音像设备商店数据集，我们已知~ = +0.93。因此，广告数与销售额之间存在着强正 
线性关系。更具体地说，广告数的增长与销售额的增长相关联。 



方法 


47. 

gf~l> 


自测题 


两变量的五个观察值如下: 


Xi 

4 

6 

11 

3 

16 

7 i 

50 

50 

40 

60 

30 


a . 构建以 x 为横轴的散点图。 

b . ( a ) 中作出的散点图表明两变量间存在着什么关系？ 



C. 计算并解释数据的样本协方差。 
d . 计算并解释数据的样本相关系数。 

48. 两变量的五个观察值 如下： 
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Xi 

6 

11 

15 

21 

27 

yt 

6 

9 

6 

17 

12 


a . 构建这些数据的散点图。 

b . 散点图显示 a ; 和 y 之间可能存在什么关系？ 

c . 计算并解释 数据的 样本协方差。 

d . 计算并解释数据的样本相关系数。 


应用 

49. 高中指导委员会收集了 6个高年级学生平均等级点 （ GPA ) 和 SAT 数学考试成绩的数据 如下: 


GPA 

2.7 

3.5 

3.7 

3.3 

3,6 

3.0 

SAT 

450 

560 

700 

620 

640 

570 


a . 作出以 GPA 为横轴的散点图。 

b . 从散点图来看， GPA 和 SAT 数学考试成绩之间存在关系吗？请解释。 

c . 计算并解释数据的样本协方差。 

丄计算数据的样本相关系数。它说明两变量间的关系是什么？ 


50. 运输部门对于中型汽车的行驶速度和每英里油耗进行了研究，结果数据 如下: 


行驶速度 

30 

50 

40 

55 

30 

25 

60 

25 

50 

55 

每英里油耗 

28 

25 

25 

23 

30 

32 

21 

35 

26 

25 


计算并解释这些数据的样本相关系数。 

51. 《 PC 世界》提供了销量最大的15种笔记本电脑的评分 (PC World ，February 2000) 。 

运行分数是对于该电脑在一系列普通商业应用中，与基准样机相比较其运转速度有多 
快的度量。例如，运行分数为200的电脑的运转速度是样机的两倍快。在研究中测试 
的每台电脑，其综合评分的满分为100。90分以上的成绩意味着优异，而70多分就 
表示高于平均水平。15种笔记本的运行分数和综合评分 如下： 



CD 光盘数据 
PCs 


笔记本 

运行分数 

综合评分 

AMS Tech Roadster 15 CTA 380 

115 

67 

Compaq Armada M 700 

191 

78 

Compaq Prosignia Notebook 150 

153 

79 

Dell Inspiron 3700 C 466 GT 

194 

80 

Dell Inspiron 7500 R 500 VT 

236 

84 

Dell Latitude Cpi A 366 XT 

184 

76 
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52. 



CD 光盘数据 
Dow S&P 


53. 



CD 光盘数据 
High Low 


笔记本 

运行分数 

(续表） 

综合评分 

Enpower ENP-313 Pro 

184 

77 

Gateway Solo 9300LS 

216 

92 

HP Pavillion Notebook PC 

185 

83 

IBM ThinkPad I Series 1480 

183 

78 

Micro Express NP7400 

189 

77 

Micron TransPort NX PII-400 

202 

78 

NEC Versa SX 

192 

78 

Sceptre Soundx 5200 

141 

73 

Sony VAIO PCG-F340 

187 

77 


a . 计算样本相关系数。 

b . 样本相关系数说明运行分数和综合评分之间存在着什么关系？ 

道琼斯工业平均指数 （ DJIA ) 和标准普尔500指数 ( S & P ) 都用做对股市综合变动的度 
量。 DJIA 建立在30家巨型公司的价格变动基 础上； S & P 500 则是一个由500只股票 
构成的指数。有些人认为 S & P 500 对股市表现度量得更好，因为它的基础更广泛。下 
表列出了从2000年2月11日以来10个星期的 DJIA 和 S & P 500的收盘价（如 rwi 、 
April 17, 2000) 。 


日期 

道琼斯指数 

S & P 500 指数 

2 月 11 日 

10 425 

1 387 

2 月 18 日 

10 220 

1 346 

2 月 25 日 

9 862 

1 333 

3 月 3 日 

10 367 

1 409 

3 月 10 日 

9 929 

1 395 

3 月 17 日 

10 595 

1464 

3 月 24 日 

11 113 

1 527 

3 月 31 日 ^ 

10 922 

1499 

4 月 7 曰 

11111 

1 516 

4 月 14 日 

10 306 

1 357 


a . 计算这些数据的样本相关系数。 

b . 两指数的相关程度是弱还是强？ 

20个城市的日最高和最低温度如下 （ US /1 7^叫 ， May 9, 2000) : 


城市 

最局温度 

最低温度 

雅典 

75 

54 

曼谷 

92 

74 

开罗 

84 

57 

哥本哈根 

64 

39 
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(续表) 


城市 

最局温度 

最低温度 

都柏林 

64 

46 

哈瓦那 

86 

68 

香港 

81 

72 

约翰内斯堡 

61 

50 

伦敦 

73 

48 

马尼拉 

93 

75 

墨尔本 

66 

50 

蒙特利尔 

64 

52 

巴黎 

77 

55 

里约热内卢 

80 

61 

罗马 

81 

54 

汉城 

64 

50 

新加坡 

90 

75 

悉尼 

68 

55 

东京 

79 

59 

温哥华 

57 

43 


最高和最低温度间的关系是什么？ 


3.6 加权平均值和使用分组数据 


在 3.1 节，我们对均值进行了介绍，它是最重要的描述性统计的度量方法之一。下面是具有 
ri 个观察值的样本均值 公式： 


_ _ X\ + X 2 + tmm + Xn 


(3.14) 


在该公式中，给予了每 个&同 等的重要性和权重。虽然在实践中这种形式最常见，但在某些 
情况下，需要给予每个观察值一个对应于其重要性的权重，来计算平 均值。 以这种方法计算出的 
平均值称为加权平均值 (weighted mean ) 0 


加权平均值 
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当数据是来自样本时，公式 (3. 15) 算出的就是加权样本平 均值； 当数据来自总体，则用 m 
来代替 t 利用公式 (3. 15) 算出的是加权总体平均值。 

作为一个需要进行加权平均的样本，我们来考虑下面的一个过去3个月以来5次原材料购买 


的 样本： 

购买次数 

每磅成本(美元） 

磅数 

1 

3, 00 

1 200 

2 

3.40 

500 

3 

2.80 

2 500 

4 

2. 90 

1 000 

5 

3.25 

800 


注意到每磅成本从 2. 80美元一 3. 40美元不等，购买数量在 500—2 500磅之间。假定经理想要 
知道原材料的每磅成本平均值的有关信息。因为每次订购的数量不同，我们必须使用加权平均值公 
式。5个每磅成本数据值分别是 a = 3. 00,奶= 3. 40,幻 =2. 80, ^ =2. 90和々= 3. 25。计算每磅成本 
的平均值时，需要根据每个成本对应的数量来确定每个成本的权数。在这个例子中，权数分别为 
= 1 200,奶= 500,奶=2 500, mm = 1 000和奶=800。利用公式 （3. 15) ，可计算加权平均值 如下： 


_ ^ 1 200 x 3. 00 + 500 x 3. 40 + 2 500 x 2 . 80 + 1 000 x 2. 90 + 800 x 3.25 
欠 _ 1 200 + 500+2 500 + 1 000 + 800 — — 


_ 17 800 
一 6 000 


= 2. 967 


因此，加权平均值的计算结果表明，每磅原材料成本的平均值是 2. 967美元。如果我们使用公式 
(3.14) 而不是加权平均公式的话，将会得到带有误导性的结果。本例中，5个每磅成本的平均值是 
(3.00 + 3.40 + 2.80+2.90 + 3.25)/5 == 15.35/5 = 3. 07美元，过高估计了实际的每镑成本平均值。 

在特定的加权平均值计算过程中，对权重的选择依赖于具体的应用。一个被大学生们所熟知 
的例子是平均等级 （ GPA ) 的计算过程。在计算时，被普遍使用的数据 值是： 4代表 A 级，3代表 B 
级，2代表 C 级，1代表 D 级，0代表 F 级。权重就是每一级获得的学分数。本节后面的练习56 
提供了该加权平均值计算过程的示例。在其他加权平均值的计算中，经常使用诸如镑、美元数、 
体积等数量值作为权重。在任何情况下，当数据的重要性变化时，分析人员必须选择能够最好地 
反映每个数据值重要程度的权重，以确定平均值。 

计算等级分平均值是一个很好的加权平均值应用例子。 


分组数据 

在大多数情况下，对位置和变异程度的度量是利用单个数据值来计算的。但有时我们只有分组 
的或频数分布形式的数据。在下面的讨论中，我们将说明如何利用加权平均值公式得到分 组数据 
(grouped data ) 的均值、方差和标准差的大概值。 
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在 2.2 节，我们曾经介绍了 Sanderson and Clifford 会计师事物所完成年末审计所需要天数的频 
数分布。表 3. 10再次列出了该事物所的20家客户样本的审计时间频数分布。在频数分布的基础 
上，样本平均审计时间是多少？ 


表 3. 10 审计时间的频数分布 


审计时间 （天} 

频数 

10—14 

4 

15 —19 

8 

20 —24 

5 

25—29 

2 

30 —34 

J 

总计 

20 

为了只使用分组数据来计算均值，我们把每一组的组中值作为该组所有数据的代表。 令脱 

表示 i 组的组 中值； 令•表示 i 组的频数。然后我们就能够用脱表示数据值，用频数/,•代表权 

重，从而可以使用加权平均值公式 （3.15) 

。在本例中，公式 （3.15) 的分母是频数之和，即样 

本容量也就是因此，分组数据的样本均值公式可表达 如下： 

分组数据的祥本均值 


X 

(3.16) 

n 

式中 Mi —— i 组的组 中值； 


fi i 组的频数； 


n Z / i - 样本谷里。 



对于组中值恥，两组限距离的一半，我们可以得到表 3. 10的第1组 10— 14的组中值为 
(10 + 14)/2 = 12。5个组的组中值以及审计时间的加权平均过程都汇总在表 3. 11中。我们可以 
看到，样本平均审计时间是19天。 


表 3. 11 分组数据样本加权平均审计时间的计算过程 


审计时间（天） 

组中值 （ M ,) 

频数 （/) 

fiM l 

10 — 14 

12 

4 

48 

15 19 

17 

8 

136 

20 — 24 

22 

5 

110 

25 — 29 

27 

2 

54 

30 一 34 

32 

J 

32 



20 

380 

样本均值$ = = 

n 

_ 380 _ g n - 
20 — 19 大 
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为了计算分组数据的方差，我们对方差公式 （3.5) 做一些轻微改动。在公式 （3.5) 中，关 
于样本均值5的数据平方离差被写成（&-^ 2 。但是在分组数据的情况下，该值是未知的。在本例 
中，我们把组中值恥作为该组的 &值的 代表。因此关于样本均值的平方离差（力-幻 2 ,被（脱- 
幻 2 替换。然后，与我们在分组数据的样本均值计算中所做的处理相同，我们用组频数，作为每 
个值的权重。所有数据关于均值的平方离差之和就近似为 Z /; ( Mi - xVo 分母使用而不是 
71是为了以样本方差来估计总体方差沪。因此，利用下面公式可得到分组数据的样本 方差： 


分组数据的祥本方差 



IfiiMj-x ) 2 

TL - \ 


(3.17) 


基于表 3. 10分组数据审计时间样本的计算过程列示在表 3. 12中 


表 3. 12分组数据审计时间样本方差的计算过程（样本均值^ = 19> 


审计时间 

组中值 

频数 

离差 

平方离差 


(天） 

㈤ 

(/0 

( Mi - lc ) 

( Mi - X ) 2 

fi ( Mi - J) 2 

10—14 

12 

4 

-7 

49 

196 

15 — 19 

17 

8 

-2 

4 

32 

20 — 24 

22 

5 

3 

9 

45 

25—29 

27 

2 

8 

64 

128 

30 — 34 

32 

i 

13 

169 

169 



20 



570 






IfAM.-xY 



样本方差夕 

_ Ifi ( Mi - x) 2 _ 570 _ 
" 1 19 

= 30 



分组数据的标准差就是分组数据方差的正平方根。对于审计时间数据，样本标准差是 s = 


占^ = 5. 48。 

在结束本节对分组数据的位置和分散程度的度量计算之前，我们注意到公式 (3. 16) 和 (3. 17) 
是关于样本的。对总体的度量值计算方法也与此类似。分组数据总体均值和方差的分式 如下： 


分组数据的 33 体均值 

㈣ 

(3.18) 


分组数据的总体方差 


(3.19) 
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1. 在计算分组数据的样本方差时，另一个可选 
的公式为 X ./^ Lz ^ 2 o 式中， X fM ? = 

汀 一 1 J 

/, Mi 2 +/ 2 M 2 2 + -+/. M a 2 , k 是数据分组 
的组号。利用该公式可以稍微简化计算。 

2. 在计算分组数据的描述性统计量时，使用组 


中值近似代替每组的数据值。结果导致了 
分组数据的描述性统计量只是直接利用原 
始数据得出的描述性统计量的近似值。因 
此，我们建议在可能的情况下，应直接使 
用原始数据而不是分组数据来计算描述性 
统计量。 



方法 


54. 考虑下列数据和对应的权重 _• 


权重 （ ％) 


3.2 6 
2.0 3 

2.5 2 

5.0 8 


a . 计算数据的加权平均值。 

b . 计算不计权重的4个数据值的样本均值，注意这两种方法的结果差异 


55. 考虑下面频数分布的样本数据: 



组别 

组中值 

频数 

自测题 

3—7 

5 

4 


8 — 12 

10 

7 


13 — 17 

15 

9 


18 — 22 

20 

5 


a . 计算样本均值。 

b . 计算样本方差和样本标准差 
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应用 

56 大学生的等级分平均值是通过计算加权平均值得到的。在大多数的大学中，用下列数 

据值来分别代表各个 等级： A (4), B (3), C (2), D ( l ), F (0) o 州立大 学的某 位学生 
在结束了 60 个学分的课程以后，有9个学分获得了 A , 15个学分获得了 B , 33个学 
分获得了 C , 3个学分得了 D 。 

a . 计算这位学生的等级分平均值。 

b . 州立大学的学生们必须在他们前60个学分的课程中，取得 2.5 个等级分平均值才 
能够被商学院录取。这名学生能被录取吗？ 

57. 红利收益率是作为年度红利支付给股东的收入占股票每股价值的百分比。一个样本由 Irmis 投 


资公司拥有的8只股票组成， 

其红利收益率如下 

( Barron ’ s , January 5, 1998 ) 。 Innis 公司投资 

于每只股票上的金额也在下表列出，问该投资组合的平均红利收益率是多少？ 

公司 

红利收益率 

投资金额(美元） 

% 

Apple Computer 

0.00 

37 830 

Chevron Corp . 

2,98 

27 667 

Eastman Kodak 

2.77 

31 037 

ExxonMobil 

2. 65 

27 336 

Merck & Co . 

1.58 

37 553 

Franklin Resources 

0. 57 

17 812 

Sears 

2.00 

32 660 

Woolworth 

0.00 

17 775 

58. 一个样本由 680 辆汽车组成， 

某加油站记录了卖给其中每辆汽车的汽油数量的频数分布。 

汽油（加仑） 


频数 

0 — 4 


74 

5—9 


192 

10—14 


280 

15—19 


105 

20—24 


23 

25—29 


6 


总计 

680 


计算这些分组数据的均值、方差和标准差。如果该加油站希望在某个给定的日期为120辆汽 
车加油，那么它能够销售的汽油总数的估计值是多少？ 

59.在《财富》杂志的订户调查中，有这样一个 问题： “你阅读过或者浏览过最后四篇中的几 
篇？”假定下列频数分布汇总了 500个 答案： 
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阅读数目 频数 

0 15 

1 10 

2 40 

3 85 

4 350 


总计 500 

a . 《财富》订户阅读后四篇文章数的均值是多少？ 

b . 他们阅读后四篇文章数的标准差是多少？ 



本章我们介绍了几种能够概括数据的位置和变异程度的描述性统计量。与表格和图形方法不 
同，这几种度量方法是按照数值概括数据。当数值是由样本得来时，就称为样本统 计量； 而当数 
值来自于总体时，则称为总体参数。表示样本统计量和总体参数的一些符号如下所示： 


均值 

样本统计置 

X 

总体参数 

方差 

s 2 

0- 2 

标准差 

S 

<7 

协方差 

Sxy 

<T X y 

相关系数 

r X7 

P*7 


作为对数据集中心位置的度量，我们定义了均值、中位数和众数。而百分位数的概念用来描 
述数据集的其他位置。接着，我们给出了极差、四分位点内距、方差、标准差和变 异系数 来度量 
变异程度或分散程度。我们还介绍了在应用经验法则和切比雪夫定理时，怎样一起使用均值和标 
准差，对数据的分布提供更多的信息，并鉴别出异常值。 

在 3.4 节，我们演示了怎样构建五数概括法和箱形图。它们对数据的位置、变异程度和分布 
的形状提供了类似的信息。在 3.5 节，我们介绍了作为两变量间关系度量的协方差和相关系数。 
而在最后一节，我们说明了如何计算加权平均值和如何计算分组数据的均值、方差、标准差。 

我们还能够利用统计软件包和分布表来构建本章讨论的描述性统计量。在附录 3.1 内，我们 
将演示怎样利用 Minitab 得到本章介绍过的大多数描述性统 计量； 在附录 3.2 内，我们将以 Excel 

的应用为例说明同样的目的。 
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术语辞义 


样本统 计置： 用来汇总样本（例如，样本均值、样本方差户和样本标准差 s ) 度量结果的数值。 

总体参数 :用来 汇总数据总体(例如，总体均值 M 、 总体方差#和总体标准差 CT ) 度量结果的数值。 

均值: 对一个数据集的中心位置的度量。它的计算方法是先加总所有数据值，再除以数据的个数。 

中 位数： 对中心位置的度量。它是当数据按照升序排列时，处于数据集中间位置的数据的值。 

众数： 对中心位置的度量，它是数据集中出现频率最高的数据的值。 

百分 位数： 它是这样一个数值，在数据集中至少有的观察值小于或等于该值，至少有 (100- 
p )% 的观察值大于或等于该值。而第50百分位数就是中位数。 

四分 位数： 第25、第50和第75百分位数分别是第一四分位数、第二四分位数和第三四分位数。 
四分^数能够把数据集分成四个部分，每部分都包含大约25%的数据。 

临 界值： 下临界偉大约等于第一四分位数，或第25百分 位数； 而上临界值大约等于第三四分位 
数，或第75百分位数。因为计算习惯不同，临界值可能与四分位数有轻微的差别，但 
它们的目标都是把数据集分割成相等的四部分。 

极差： 对数据集变异程度的度量，它的定义是最大值与最小值的差。 

四分位点内距 （ IQR ): 对数据集变异程度的度量，被定义为第三和第一四分位数之差。 

方差： 对数据集变异程度进行的度量，有关计算是建立在各个数据值关于均值的平方离差之和的 
基础上。 

标 准差： 对方差取正平方根所得到的对数据集变异程度的度量。 

变异 系数： 它是对数据集相对变异程度的度量，计算方法是把标准差除以均值再乘以100。 

Z - 分数： 用关于均值的离差除以标准差 s 得到的数值。分数也被称为标准化值 ，表示私与 
平均值的距离相当于标准差的个数。 

切比雪夫 定理： 该定理可应用于任何数据集，而无论它们的分布状况如何。该定理能够指出那些 

与平均值的距离必定处于某特定标准差个数以内的观察值占总数的比例。 

经验 法则： 该法则适用于具有钟形分布的数据集，可用于计算那些距离数据集平均值必定在一 
个、两个和三个标准差以内的数据项占总数的百分比。 

异 常值： 小得不正常或大得不正常的数据值。 

五数概 括法： 一种探索性数据分析技术，它用五个数来概括 数据： 最小值、第一四分位数、中位 

数、第三四分位数和最大值。 

箱 形图： 数据的一种图形概括。其箱体边缘从第一四分位数画到第三四分位数，表示了数据的中 
间50%位置。从箱体边缘发出的横虚线被称为须线，它表示大于第三四分位数和小于第 
一四分位数的数据值位置。在任何异常值所处的位置都做了标记。 

协 方差： 对两变量间线性关系的数值度量。正值表示正的线性 关系； 负值表示负的线性关系。 

相关 系数： 对两变量间线性关系的数值度量，其取值范围从 -1 到+1 。接近+ 1的值表示强的正 
线性 关系； 接近」1的值表示强的负线性 关系； 而接近于零的值则表示缺乏线性关系。 
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加权平 均值： 通过给每个观察值分配一个反映它在数据集内重要性的权重，从而计算得出的数据 

集平均值。 

分组 数据： 在该形式下，人们只能使用由频数分布汇总的组区间数据，而无法得到原始数据的单 
个值。 


样本均值 

总体均值 

四分位点内距 

总体方差 

样本方差 

标准差 


变异系数 


f 要 7 




IQR = (?3 - (?1 

0 I (Xi - IM) 1 

N 

o T(xj-x ) 2 
5 一 /I 一 1 


样本标准差= 5 = 
总体标准差 == CT = 


标准差 

均值 


xlOO 


(3.1) 

(3.2) 

(3.3) 

(3.4) 

(3.5) 

(3.6) 

(3.7) 

(3.8) 


z - 分数 


(3.9) 
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样本协方差 


皮尔逊积矩相关 系数： 样本数据 


加权平均值 


分组数据的样本均值 


分组数据的样本方差 


分组数据的总体均值 


分组数据的总体方差 


S X y 


n -\ 


r X y =土 


- _ Xi 

% 一 

式中， m 为观察值^的权重。 


p 迦 

n 


s = 


MMzll 

n - l 




IfiM. 

N 


o 2 ^ 


N 


针免樣 


(3.10) 


(3.12) 


(3.15) 


(3.16) 


(3.17) 


(3.18) 


(3.19) 


60 



CD 光盘数据 
Eat 


美囯人平均每月外出吃饭花去 65. 88 美元 （TVie Des Moines Register , December 5, 
1997)。 一个由年轻成年人组成的样本提供了过去几个月他们外出就餐的花费（美元) 
数据。 


253 

101 

245 

467 

131 

0 

225 

80 

113 

69 

198 

95 

129 

124 

11 

178 

104 

161 

0 

118 

151 

55 

152 

134 

169 





a . 计算均值、中位数和众数。 
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61. 



CD 光盘数据 
Retainer 


b . 考虑 ( a ) 中的结果，这些年轻人在外出就餐的花费上，是否与美国人的平均水平相同？ 

c . 计算第一和第三四分位数。 

d . 计算极差和四分位点内距。 

e . 计算方差和标准差。 

f . 里面含有异常值吗？ 

美国100家最大上市公司董事会成员的每年总收入中有一部分是现金收入，即他们为 
董事会服务的年收入。除了现金收入外，董事会成员还可能收到股票收入、股票赠 
与、股票期权和董事会会议津贴。即使每年的现金收入低至15 000美元，但他们的总 
收入仍能够轻易地超过100000美元。下列数据显示了在一个由20家美国最大上市公 
司组成的样本中，董事会成员的现金收入 （ Today , April 17, 2000) 。 


公司 

现金收入 

American Express 

64 

Bank of America 

36 

Boeing 

26 

Chevron 

35 

Dell Computer 

40 

DuPont 

35 

ExxonMobil 

40 

Ford Motor 

30 

General Motors 

60 

International Paper 

36 

Kroger 

28 

Lucent Technologies 

50 

Motorola 

20 

Procter & Gamble 

55 

Raytheon 

40 

Sears Roebuck 

30 

Texaco 

15 

United Parcel Service 

55 

Wal-Mart Stores 

25 

Xerox 

40 


计算下列描述性统计量： 

a . 均值、中位数和众数。 

b . 第一和第三四分位数。 

c . 极差和四分位点内距。 

d . 方差和标准差。 

e . 变异系数。 
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62. 有一项调查是关于计算机厂商迅速处理问题的能力的 （ PCCompiling , November 1997)。其结果 
如下： 


公司 

解决问题的天数 

公司 

解决问题的天数 

Compaq 

13 

Gateway 

21 

Packard Bell 

27 

Digital 

27 

Quantex 

11 

IBM 

12 

Dell 

14 

Hewlett-Packard 

14 

NEC 

14 

AT&T 

20 

AST 

17 

Toshiba 

37 

Acer 

16 

Micron 

17 


a . 解决问题所需天数的均值和中位数是多少? 

b . 方差和标准差是多少？ 

c . 哪一个厂商拥有最好的记录？ 

d . Packard Bell 公司的 z - 分数是多少？ 

e . IBM 公司的 z - 分数是多少？ 

f . 有异常值吗？ 


63. 



CD 光盘数据 
Mortgage 


下面的数据是 Westwood 储蓄和贷款协会某贷款人员办理的家庭抵押贷款数额，数据以 
千美元为单位。 


52.0 

68.5 

63.0 

57,5 

64.0 

42.5 

55.9 

73.2 

67.5 

66.2 

55.2 

60.9 

53. 8 

58.4 

43.0 

61.0 

63.5 

55,4 

63.5 

50.2 

69.0 

68. 1 

60.5 

75.5 

60.5 

82.0 

70.5 

81.6 

72.5 

74.8 


a . 计算均值、中位数和众数。 

b . 计算第一和第三四分位数。 


64. 根据 Forrester 研究公司的调查，大约有19%的互联网用户进行在线游戏。下列数据表示了 10家 
游戏网站3月份的个人访问者数量（以千为单位 ）（ 77^ Wall Street Journal , April 17, 2000) 。 


网站 

个人访问者 

AOLGames. aol 

9416 

extremelotto. com 

3 955 

freelotto. com 

12 901 

gamesville. com 

4 844 

iwin. com 

7 410 

prizecentral. com 

4 899 

shockwave, com 

5 582 

speedyclick . com 

6 628 

uproar , com 

8 821 

webstakes . com 

7 499 


利用这些数据，计算均值、中位数、方差和标准差。 
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65. 



Income 


一个包括20个城市的样本列出了这些城市典型的家庭收入 （Peaces 
2000)，数据的单位是千美元。 

a . 计算样本数据的均值和标准差。 

b . 利用 （ a ) 中计算出的均值和标准差，估计所有城市总体家庭收入的均值和标准差。 
使用切比雪夫定理来确定75%的城市总体家庭收入一定会落在哪个范围内。 

c . 假定家庭收入的分布呈钟形。利用 （ a ) 中计算出的均值和标准差来估计城市总体家 
庭收入的均值和标准差。利用经验法则确定95%的城市总体家庭收入一定会落在哪 
个范围内，并把它和 ( b ) 中的结果进行比较。 

d . 样本数据中是否包含异常值？ 


城市 

收入 

Akron, OH 

74. 1 

Atlanta, GA 

82.4 

Birmingham, AL 

71.2 

Bismark, ND 

62.8 

Cleveland, OH 

79.2 

Columbia, SC 

66.8 

Danbury, CT 

132.3 

Denver, CO 

82.6 

Detroit, MI 

85.3 

Fort Lauderdale, FL 

75. 8 

Hartford, CT 

89. 1 

Lancaster, PA 

75.2 

Madison, WI 

78,8 

Naples, FL 

100.0 

Nashville, TN 

77.3 

Philadelphia, PA 

87.0 

Savannah, GA 

67.8 

Toledo, OH 

71.2 

Trenton, NJ 

106.4 

Washington, DC 

97.4 


66. 雇员们每天去上班时，能够使用公交工具和私人汽车两种方法。下面是一个记录了每种方法 
所花费时间的样本，时间的单位是分钟。 


公交工具： 28 29 32 37 33 25 29 32 41 34 

私人汽车： 29 31 33 32 34 30 31 32 35 33 


a . 计算每种方法花费时间的样本平均值。 
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b . 计算每种方法花费时间的样本标准差。 

c . 在前两问结果的基础上，人们应该选择哪种交通方法？请解释。 

d . 构建每种方法的箱形图。你作出的箱形图支持你在 ( c ) 中的结论吗? 


67. 25个统计学专业学生的期终考试成绩 如下: 



CD 光盘数据 


Exam 


56 

77 

84 

82 

42 

61 

44 

95 

98 

84 

93 

62 

96 

78 

88 

58 

62 

79 

85 

89 

89 

97 

53 

76 

75 







a . 作出五数概括。 

b . 作出箱形图。 


68. 下面的数据是在 NCAA 大学橄榄球联赛的一个赛季中，由20个防守队员组成的样本的累计奔 
跑码数。 


744 

652 

576 

1 112 

971 

451 

1 023 

852 

809 

596 

941 

975 

400 

711 

1 174 

1 278 

820 

511 

907 

1 251 


a . 作出五数概括。 

b . 作出箱形图。 

c . 识别异常值。 


69. 



CD 光盘数据 


Cities 


20个城市样本的典型家庭收入和家庭物价水平如下 (Places RatedAlnrnruw ， 2000) ， 


数据的单位是千美元。 



城古 

收入 

家庭物价水平 

Bismark, ND 

62.8 

92.8 

Columbia, SC 

66. 8 

116.7 

Savannah, GA 

67.8 

108. 1 

Birmingham, AL 

71.2 

130.9 

Toledo, OH 

71.2 

101. 1 

Akron, OH 

74. 1 

114.9 

Lancaster, PA 

75.2 

125.9 

Fort Lauderdale, FL 

75.8 

145.3 

Nashville, TN 

77.3 

125.9 

Madison, WI 

78. 8 

145.2 

Cleveland, OH 

79.2 

135.8 

Atlanta, GA 

82.4 

126.9 

Denver, CO 

82.6 

161.9 

Detroit, MI 

85.3 

145.0 

Philadelphia, PA 

87.0 

151.5 

Hartford, CT 

89. 1 

162. 1 
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( 续表 ) 


城市 

收入 

家庭物价水平 

Washington, DC 

97.4 

191.9 

Naples, FL 

100.0 

173.6 

Trenton, NJ 

106.4 

168. 1 

Danbury, CT 

132.3 

234. 1 


a . 样本协方差是多少？它表示正的还是负的线性关系？ 

b . 样本相关系数是多少？ 

70. Road & Track 杂志提供了下列汽车轮胎的装载能力和轮胎得分 样本： 


轮胎得分 

装载能力 

75 

853 

82 

1 047 

85 

1 135 

87 

1 201 

88 

1 235 

91 

1 356 

92 

1 389 

93 

1433 

105 

2 039 


a . 构建以轮胎得分为轴的数据散点图。 

b . 样本相关系数是多少？它说明在轮胎得分和装载能力之间存在什么关系？ 

71. 在练习6中，我们对于打折经纪人从事的两类 交易： 以每股50美元买卖500股和以每股5美 
元买卖1 000股，计算了有关的几种描述性统计量。表 3.2 列出了在20个打折经纪人的样本 
中，进行每种交易分别收取的佣金 （ A 4"/ oumaZ，January 1997)。计算两类交易的协方差和相 
关系数。你对于两者的关系可以了解到什么？ 

72. 下面数据显示了 10家公司报告的道琼斯股票连续追踪52周的优先股收益和账面价值 (The 
Wall Street Journal , March 13, 2000) 。 


公司 

账面价值 

收益 

Am Elec 

25 . 2 \ 

2. 69 

Columbia En 

23.2 

3.01 

Con Ed 

25. 19 

3. 13 

Duke Energy 

20. 17 

2. 25 

Edison Int’l 

13.55 

1.79 

Enron Cp. 

7.44 

1.27 

Peco 

13,61 

3. 15 

Pub Sv Ent 

21.86 

3.29 
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(续表） 

公司 

账面价值 

收益 

Southn Co. 8. 77 

1.86 

Unicom 

23.22 

2.74 

构建以账面价值为 ； C 

轴的数据散点图。 



b. 样本相关系数是多少？它说明每股收益和账面价值之间存在什么关系？ 

73. —个样本由 5 只货币市场基金组成，它们的到期天数如下所示。另外，还给出了投资于基金 
的美元数额。利用加权平均值来确定这 5 支基金的投资平均到期天数是多少？ 


到期天数 

投资金额 ( 

20 

20 

12 

30 

7 

10 

5 

15 

6 

10 


74. —种被称为移动平均的预测技术利用时间序列数据最近 n 期的平均值来预测下一期的值。 3 
期移动平均预测值是以最近 3 期数据来做预测计算。考虑这样一种产品，它在本年度前 3 个 
月的需求量分别为： 1 月 （800 单位）， 2 月 （750 单位）， 3 月 （900 单位）。 

a . 4 月份的 3 个月移动平均预测值是多少？ 

b. 这种预测技术的一种变体被称为加权移动平均。该技术在预测计算过程中，对更近的时间 
序列数据给予了更大的权重。例如，加权 3 个月的移动平均可以把权重 3 给予 1 个月长度 
的数据，把权重 2 给予 2 个月长度的数据，把权重 1 给予 3 个月长度的数据。使用以上数 
据来计算 4 月份的 3 月期加权移动平均预测值。 

75. 下面是 20 个长途电话以分计的通话时间频数分布，计算数据的均值、方差和标准差。 


通话时间（分） 频数 

4—7 4 

8—11 5 

12—15 7 

16 —19 2 

20—23 • 1 

24—27 1 


总计 20 

76. LaMaison 法国餐馆晚餐账单金额的频数分布如下所示，计算数据的均值、方差和标准差。 

频数 

2 


账单金额（美元 ) 

25—34 

35—44 


6 
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(续表) 


账单金额 { 美元） 频数 

45—54 4 

55—64 4 

65—74 2 

75—84 _2 

总计 20 


77. 在纽约州高速公路行驶的汽车会受到该州警察雷达系统的速度检测。下面是速度的频数分布 


1 { 英里 / 小时） 

频数 

45—49 

10 

50—54 

40 

55—59 

150 

60—64 

175 

65—69 

75 

70—74 

15 

75—79 

10 


总计 475 


a . 在纽约州高速公路行驶的汽车平均速度为多少? 

b . 计算速度的方差和标准差。 


案例研究 1 CONSOLIDATED 食品公司 

Consolidated 食品公司在新墨西哥州、亚利桑那州和加利福尼亚州经营连锁超市（见第2章案 
例）。表 3. 13列出了一个100位顾客样本的支付方式和付款金额数据的一部分。该公司的经理希 
望能够通过样本了解到商店顾客的支付情况，尤其很想知道新的信用卡支付的选择方式与顾客的 
购货金额之间有什么关系。 

管理报告 

使用第3章讲述的描述性统计方法来汇总样本数据。分别作出现金客户、个人支票客户和信 
用卡客户的购货金额汇总。你的报告应包括下列汇总和 讨论： 

1. 每种支付方式数据的均值和中位数的比较与理解。 

2. 对每种支付方式数据的变异程度的不同度量方式——如极差和标准差的比较和理解。 

3. 每种支付方式数据的五数概括，以及对它们的识别和理解。 

4. 每种支付方式数据的箱形图。 


利用报告的汇总结果，讨论你对于该公司客户的支付方式和付款金额能够得出什么结论。 
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表 3. 13 100 位公司顾客样本的购货金额和支付方式 


顾客 

购货金额（美元） 

支付方式 

1 

28. 58 

支票 

2 

52. 04 

支票 

3 

7.41 

现金 

4 

11.17 

现金 

5 

43.79 

信用卡 

6 

48. 95 

支票 

7 

57.59 

支票 

8 

27. 60 

支票 

9 

26.91 

信用卡 

10 

9.00 

现金 

• • • 

95 

• • • 

18. 09 

现金 

96 

54. 84 

支票 

97 

41. 10 

支票 

98 

43. 14 

支票 

99 

3.31 

现金 

100 

69. 77 

信用卡 



CD 光盘数据 
Consolid 


案例研究2国家健康护理协会 

国家健康护理协会对健康护理专业培养的未来护士人员的缺乏情况很关注。为了了解护士们 
当前的工作满意度，协会发起了一项对全国医院护士的研究。作为该项研究的一部分，一个包括 
50名护士的样本被要求列出她们对工作、工资和晋升机会的满意度。满意度三方面中的每一个都 
用 0—100 分来衡量，较高的分值表示较大的满意度。收集的数据还显示护士所在医院的类型， 
医院的类型分别为私人医院 ( P )、 退伍军人管理局下属医院 ( VA )、 大学附属医院 ( U )。 数据的一部 
分列在表 3. 14( 见下页）中，完整的数据储存在 CD 光盘的文件 “ Health ” 内。 

管理报告 

利用描述性统计方法来汇总数据。你的汇总结果应该有助于和其他人进行相互交流。讨论你 
的结果，尤其是对下列问题应作出 评论： 

1. 根据完整的数据集和三种工作满意度变量，哪个方面的工作最能使护士满意？哪方面的满 
意度最低？如果需要的话，你感觉在哪个方面应该进行改进？试讨论。 

2. 根据对变异程度所做的描述性度量，护士们对哪一方面的工作满意度差别最大?解释原因。 
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表 3. 14 50 名护士样本的满意度分数数据 



CD 光盘数据 
Health 


护士 

医院类型 

工作 

工资 

晋升 

1 

Private 

74 

47 

63 

2 

VA 

72 

76 

37 

3 

University 

75 

53 

92 

4 

Private 

89 

66 

62 

5 

University 

69 

47 

16 

6 

Private 

85 

56 

64 

7 

University 

89 

80 

64 

8 

Private 

88 

36 

47 

9 

University 

88 

55 

52 

10 

Private 

84 

42 

66 


45 

University 

79 

59 

41 

46 

University 

84 

53 

63 

47 

University 

87 

66 

49 

48 

VA 

84 

74 

37 

49 

VA 

95 

66 

52 

50 

Private 

72 

57 

40 


3. 关于医院的类型你可以了解到什么情况？是否存在某类医院，其护士满意度高于其他类 
型的医院？能否根据你的结果对了解和提高工作满意度提出建议？试讨论。 

4. 你还能利用哪些描述性统计量及其结论来了解和改进工作满意度？ 


案例研究3亚太地区的商学院 


当前，追求工商管理专业较高的学历已是一种世界性的潮流。有调査显示，越来越多的亚洲 
人选择攻读工商管理硕士 （ MBA ) 学位，把它作为通向成功的一种途径 （ Asia , / nc. ， September 
1997) 。亚太地区商学院 MBA 课程申请者的数目在一年内上升了大约30%。根据亚太地区74所 


商学院的报告，在1997年共有170 000个申请者竞争11 000个1999年授予的全日制 MBA 学 
位，创造了历史记录。需求高涨的一个主要原因是 MBA 学位能够极大地增加个人收入。 



CD 光盘数据 


Asian 


在整个亚太地区，成千上万的亚洲人对于暂时放下他们的工作并花费两年时间来 
提高工商管理理论水平，正日益显示出增长的热情。这些商学院的课程明显很繁重， 
包括了经济学、金融学、市场营销、行为科学、劳动关系、决策学、运筹学和经济法 
等等。表 3. 15是 Asia 公司提供的数据，列出了亚太地区著名商学院的一些情况。 
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管理报告 

利用描述性统计学方法来汇总表 3. 15的数据，并讨论你的结果。 

^ 1. 对数据集的每个变量进行汇总。根据最大值、最小值、适当的平均值和分位数，进行评论 
和解释。关于亚太地区的商学院，这些描述性统计量能够提供什么新的信息？ 

2. 汇总数据以 比较： 

a . 本国和国外学生学费的差别。 

b . 要求工作经验和不要求工作经验的学校学生平均起薪的差别。 

c . 要求英语测试和不要求的学校学生平均起薪的差别。 

3. 对表 3. 15的数据作出其他的图形和数值汇总，以便同他人交流。 


附录 3. 1利用 Minitab 计算描述性统计量 

在本附录中，我们将演示怎样利用 Minitab 计算描述性统计量。表 3.1 列出了 12名商学院毕 
业生的起薪数据，图 3. 10的 Panel A 显示了利用 Minitab 汇总这些数据后得到的描述性统计量。 
Panel A 表头的文字含 义为： 


N 

数据的个数 

Mean 

均值 

Median 

中位数 

StDev 

标准差 

Min 

最小数据值 

Max 

最大数据值 

Qi 

第一四分位数 

Q 3 

第三四分位数 


在注解中，我们已经讨论过标记为 IVMean 的数值度量，但还没有介绍 SEMean 。 TrMean 就是 
处理均值， 它表示在消除了数据集里最小的一些值和最大的一些值以后的数据集中心位置。 
Minitab 提供了 5%处理均值的计算工具，该方法消去了数据集里最小的5%数据值和最大的5%数 
据值。这样，通过计算中间90%的数据，我们可以得到5%处理均值。 SEMeari 被称 为均值标准误 
差， 我们用标准差除以 N 的平方根就能够把它计算出来。对它的解释和使用将在第7章中进行讨 
论，那时我们将会介绍抽样和抽样分布的问题。 

虽然极差、四分位点内距、方差和变异系数不能出现在 Minitab 的输出中，但如果需要的话， 
可以利用下面的公式，根据图 3. 10的结果很容易地计算出这些值来。 


极差=最大值-最小值 
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IQR = Q3 - Qi 
方差= ( StDev ) 2 

变异系数= ( StDev / Mean ) x 100 


Panel A: 描述性统计业务量 


N 

均值 

中位数 


TrMean 

12 

2 940.0 

2 905.0 


2 924.5 

最小值 

最大值 

Qi 


Q3 

2 710.0 

3 325.0 

2 857.5 


3 025.0 

Panel B : 箱形图 

3 300 -1 


* 



3 200 


3 000 • 

2 900 
2 800 一 
2 700 



标准差 

165.7 


SEMean 

47.8 


图 3. 10 利用 Minitab 作出的描述性统计量和箱形图 

最后，我们注意到 Minitab 计算出的四分位数= 2 857. 5, (? 3 = 3 025 ， 与 3. 1 节计算出的结果 
仏 =2 865, <? 3 =3 000 不太一样。造成这种现象的原因*是在识别四分位数时，使用了不同的方法％ 
因此，通过某种方法得出的仏和&，不能等同于通过其他方法得到的仏和仏。这些 
不同之处可以忽略，但是却不能忽视采用四分位数时所使用的方法。 

现在让我们来看一看图 3. 10 中的统计量是如何产生的。把起薪数据输入 Minitab 
工作表的 C2 列（第2例），再利用下述步骤就能够产生这些描述性统计量。 

CD 光盘数据 

Salary 步骤 1. 选择 Stflt 下拉菜单； 

步骤 2. 选择 Basic Statistics 选项； 

步骤 3. 选择 Display Descriptive Statistics ; 

步骤4.当 Display Descriptive Statistics 对话框出现时： 

在 Variables 框中输入 C2； 

点击 OK。 



图 3. 10的 Panel B 是用 Minitab 作出的箱形图。从第一到第三四分位数画出的箱体包含了中 
间50%的数据，箱体内的直线表示了中位数的位置，星号表示异常值3 325。 


* 对于按照升序排列（从最小值到最大值）的/ I 个数据值， Minitab 利用公式 U + l )/4 和3(« + 1)/4来分别确定 和& 
的位置。当位置的数值是分数时, Minitab 在相邻的两个数据值之间内插，以确定对应的四分位数。 




通过下列步骤能够产生这个箱 形图: 
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步骤 1 . 选择 Graph 下拉 菜单； 

步骤 2 . 选择 Boxplot 选项； 

步骤 3•当 Boxplot 对话框出现时： 

在 Graph Variables 框的 Y 项目下输入 C2; 

点击 OK 。 



CD 光盘数据 


Stereo 


图 3. 11显示了用 Minitab 作出的表 3. 7内的音像设备商店数据的协方差和相关系 
数结果。在图中的协方差部分， Commerci 表示周末电视广告的次数， Sales 表示这些星 
期的销售额。行 Sales 和列 Commerci 交叉点的值为11，就是在 3. 5节计算岀的样本协 
方差；行 Commerci 和列 Commerci 交叉点的值 2. 22 222是广告次数的样本方差；行 
Sales 和列 Sales 交叉点的值 62. 88 889是销售额的样本 方差； 而样本相关系数 0. 930, 
则显示在输出结果的 Correlation 部分 。注： 对于相关系数结果中出现的 />- 值，我们将 


在第14章讨论其解释和应用。 

现在，让我们来演示如何能够得到图 3. 11的信息。我们把广告次数数据输人 C 2 列，把销售 
额数据输入 C 3 列，再利用下列步骤即可生成图 3. 11前3行的协方差 结果： 


步骤 1. 选择 Stat 下拉 菜单； 

步骤 2. 选择 Basic Statistics 选项； 
步骤 3. 选择 Covariance ; 

步骤4 .当 Covariance 对话框出现时： 
在 Variables 框内输入 C 2 C 3 ; 
点击 OK 。 


要想得到图 3. 11的相关系数结果，只需在协方差步骤的基础上改动一个步骤即可。即在步骤 

3时选择 Correlation 选项。 


Covariances: Commercials, Sales 

Commerci Sales 

Commerci 2.22222 
Sales 11.00000 62.88889 

Correlations: Commercials, Sales 

Rearson correlation of Commercials and Sales = 0.930 
P-Value = 0.000 


图 3.11 利用 Minitab 作出的广告数和销售额数据的协方差和相关系数 
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附录 3. 2利用 Excel 计算描述性统计量 

Excel 应用软件能够生成本章讨论过的描述性统计量。我们将演示怎样利用 Excel 做岀几种单 
变量的位置和变异程度度量值，以及如何生成反映两变量间关系的协方差和相关系数结果。 


使用 Excel 函数 



CD 光盘数据 
Salary 


Excel 提供了计算均值、中位数、众数、样本方差和样本标准差的函数。我们以表 
3.1 的起薪数据来说明使用这些 Excel 函数计算均值、中位数、众数、样本方差和样本 
标准差的具体方法。在我们描述所需要的步骤时，先参考图 3. 12。图中，数据已被输 
入8列。 



图 3. 12 使用 Excel 函数计算均值、中位数、众数、方差和标准差 

Excel 中的 AVERAGE 函数能够计算均值，只需要把下面的公式输入单元格 E 1 : 

= AVERAGE ( B 2： B 13) 

类似地，把公式 “= MEDIAN ( B 2: B 13)， = M 0 DE ( B 2: B 13), = YAR ( B 2: B 13) , = STDEV 
( B 2: B 13)” 分别输人单元格 E 2: E 5, 就能够计算出中位数、众数、方差和标准差。位于表面的工 
作表显 示出： 使用 Excel 函数计算出的值与我们在本章的有关部分计算出的结果是相同的。 

Excel 还提供了计算方差和相关系数的函数。但是，在使用这些函数时，你必须十分小心，因 
为协方差函数把数据都作为总体数据来处理，相关系数函数则把数据都作为样本数据来处理。因 


第 3 章描述性 统计： 数值方法 145 


此，必须对使用 Excel 协方差函数得到的结果进行调整，以得到样本协方差。在这里，我们将演 
示如何使用这些函数来计算表 3. 7音像设备商店的样本协方差和样本相关系数。在讲述这些步骤 
时可以先参考图 3. 13。 

把公式 “= C 0 VAR ( B 2 : B 11， C 2: C 11)” 输人单元格 F 1， 再利用 Excel 的协方差函数 COVAR 
就能够计算出数据的总体协方差。类似地，把公式 “= C 0 RREL ( B 2 : B 11， C 2: C 11)” 输入单元格 
F 2 就可计算样本相关系数。出现在底面的工作表显示了 Excel 函数计算出的数值结果，注意样本 
相关系数的值0, 93与我们利用公式 （3. 12) 得到的结果相同。不过，由 ExcelCOVAR 函数得到的 
结果9.9,是把数据作为总体数据处理得出的结果。因此，我们必须对 Excel 的结果 9. 9进行调 
整，以得到样本协方差。调整过程其实相当简单，首先，注意总体协方差的公式——公式 (3. 11) 
需要除以数据集中观察值的总个数。但是，样本协方差的公式——公式 （3. 10)，则需要除以观 
察值的总个数减1。所以，为了使用 Excel 的结果 9. 9来计算样本协方差，我们只需把 9.9 乘以 
江 / U - 1)。 因为 m =10, 我们有 


5 x r =(专 )9. 9 = 11 

因此，音像设备商店数据的样本协方差是11。 



图 3. 13 利用 Excel 函数计算协方差和相关系数 


使用 Excel 的描述性统计量工具 

我们已经举例说明过， Excel 能够提供统计函数计算数据集的描述性统计量，这些函数可以计 
算在同一时间的单个统计量（例如，均值、方差等）。 Excel 还提供了各种数据分析工具，其中之 
一称为描述性统计量，它使得使用者可以马上计算岀各种描述性统计量。我们将在这里演示如何 
利用它来计算表 3. 1中起薪数据的描述性统计量。在我们描述有关的步骤时需要参考图 3. 14。 
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步骤 1. 选择 Tools 下拉 菜单； 

步骤2.选择 Data Analysis ; 

步骤3.从 Analysis Tools 列表中选择 Descriptive Statistics 选项： 

步骤4.当 Descriptive Statistics 对话框出现时： 

在 Input Range 框中输入 Bl : B 13； 

选择 Grouped By Columns ; 

选择 Labels in First Row ； 

选择 Output Range ； 

在 Output Range 框中输入 D 1 (指定工作表部分的左上角来显示描述性统计量）； 

点击 OK 。 

图 3. 14 的单元格 Dl : E 15 列出了 Excel 作出的描述性统计量，其中黑体的项目已经在本章介 
绍过，非黑体的项目会在以后的课程或者更高级的课程中涉及到。 



图 3. 14 Excel 描述性统计量工具的应用 




^ 概率论简述 


统计 实例: MORTON 国际公司 
4.1 试验、计数法则和概率指派 

计数法则、组合和排列 
概率指派 

肯塔基电力公司项目的概率 
4. 2事件和它们的概率 
4. 3概率的一些基本关系 
事件的补 
加法法则 
4.4 条件概率 
独立事件 
乘法法则 
4. 5贝叶斯定理 
表格方法 
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MORTON 国际公司* 

芝加哥，伊利诺伊州 


Morton 国际公司是一家经营盐业、火箭推进器 
和特殊化学品的公司。它的一个子公司 Carstab 公司 
生产特殊化学品，并能够按照顾客要求的特殊规格 
设计并生产各种化学产品。 Carstab 公司曾经为一家 
特殊的客户生产一种昂贵的催化剂，以满足客户的 
工艺需求。这批产品中有一部分，而非全部，符合 
该客户对产品的规格要求。 

Carstab 的客户同意在收到产品以后对每批产品 
进行测试，以确定催化剂是否具有所需要的功能， 
没有通过客户测试的产品将被退回 Carstab 公司。 
一段时间以后，公司发现客户接受每个批量的 
60% ,退回40%。按照概率术语来说，每一批发 
往客户的产品具有 0.60 的被接受概乎和 0.40 的被 
拒绝概率。 

无论是 Carstab 公司还是客户都不愿意看到这 
样的结果。为了改进服务， Carstab 公司尝试探索在 
发运之前重复客户测试方法的可能性。但是，由于 
测试所需的特殊检测设备成本高昂，使#这种办法 
行不通。该公司的化学工程师建议使角一种新的， 
相对彳氐廉的测试方法，这种方法的目的是检测某批 
产品是否能够通过客户的测试。与此有关的概率问 
题是：如果某批产品通过了公司的这种测试的话， 

* 作者感谢 Morton 国际公司的 Michael Haskell 提供了该 
应用实例。 

___ 



Morton Salt ： “不雨则已 ，一 雨倾盆 。” © Joe Higgins / 


South - Western . 

那么它们通过客户测试的概率 （ Probability ) 是多少？ 
从每批产品中取出一个样本，并使用新方法进 
行测试，只有通过测试的那批产品才发给客户。对 
数据的概率分析 表明： 如果一批产品通过了公司的 
测试，那么它们能够通过客户测试并被接受的概率 
为0.909，相应地，被退回的概率就只有 0. 091。 
概率分析提供了关键性的支持证据，支持采纳和执 
行新的测试方法。新方法使得对客户的服务得到了 
改善，并大大地减少了退货的运输和处理成本。 

一批产品在通过公司测试后被客户接受的成本 
称为条件概率。在本章中，你将学习如何计算条件 
概率及其他一些对决策有帮助的概率。 


商务决策往往建立在对下面这些问题的不确定性进行分析的基 础上: 

1. 如果产品涨价的话，销售额下降的机会是多少？ 

2. 新的装配方法能够使生产率提高的可能性有多大？ 

. 3. 项目按期完工的概率是多少？ 

4. 新的投资能够盈利的可能性是多少？ 


概率 ( probability ) 是对一个事件发生可能性的数值度量。因此，概率可用来度量与上面所列四 
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类问题相关的不确定程度。如果我们知道概率的话，就能够确定每个事件发生的可能性。 

« 

关于概率的一些最早期的工作起源于 Pierre de Fermat 和 Blaise Pascal 之间在 17 世纪 
50年代来往的信件。最早的概率专著是 Pierre-Simon de Laplace 在1812年出版的 Theorie 
Analytique des Probabilities 。 

概率值总是分布在 0 — 1 之间。接近于0的概率表示某事件几乎不可能 发生； 接近于1的概 
率表示某事件几乎肯定要 发生； 处在0和1之间的其他概率则表示某事件发生的可能程度。例 
如，如果让我们考虑事件“明天下雨”，我们知道当天气预报报告说“降雨概率接近0” 时，就 
意味着几乎没有下雨的可能。但是，如果报告是“降雨概率为 0.90” 的话，我们明白很可能会下 
雨。 0 . 50的概率则表示下雨的可能性和不下雨的可能性一样大。图 4. 1 描述了概率作为对事件发 
生可能性的数值度量是怎样的一种情况。 


发生的可能性增加 


0 


0.5 



概率: 


事件发生的概率和不发生的概率一样大 


图 4. 1作为事件发生可能性数值度量的概率 


4.1 试验、计数法则和概率指派 


在讨论概率时，我们定义试验 ( experiment ) 就是能够产生明确结果的过程。如果对一个试验进 
行任何一次重复的话，所有可能的试验结果中有一个结果且只有一个结果会出现。下面是几个试 
验的例子和与试验相联系的 结果： 


试验 

拋掷一枚硬币 
进行一次产品抽查 
打一次销售电话 
掷一个色子 
进行一场橄榄球比赛 


试验结果 

正面、反面 
缺陷、无缺陷 
购买、不购买 
1 、 2 、 3 、 4 、 5、6 
胜、负、平 


在我们已经确定了所有可能的试验结果以后，我们也就确定了一个试验的样本空间 （sample 


space ) o 
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祥本空间 

一个试验的样本空间就是所有试验结果的集合。 

一个试验结果也称为一个 样本点 (sample point ) ，表示它是样本空间的一个元素。 

考虑上表的第一个试验——抛掷硬币，试验结果（样本点）由硬币向上的一面 确定： 正面或 
是反面。如果我们用 S 表示样本空间，我们可以使用下面的符号来描 述它： 


试验结果也称做样本点。 


S = { 正面，反面 } 

表中第二个试验——进行一次产品抽查的样本空间和样本点 如下： 

S = { 缺陷，无缺陷 } 

刚才描述的试验都只有两个试验结果（样本点），但是如果我们考虑表中第四个试验——投掷色 
子的话，可能出现的试验结果就是色子朝上一面所显示的点数。这样，试验的样本空间就有6个 
样 本点： 


S = ll ,2, 3, 4,5,6} 


计数法则、组合和排列 

能够对试验结果进行确认和计数是指派概率的一个必要步骤。现在我们来讨论三种有用的计 
数法则。 

多步骤试验 ( multiple-step experiments ) 。第一种计数法则是针对多步骤试验的。考虑投掷两枚 
硬币的试验，我们定义该试验的结果是按次序投掷两枚硬币，其朝上一面出现的情况。这个试验 
有多少个可能的试验结果？投掷两枚硬币的试验可被认为是一个两步骤试验，步骤1是投掷第一 
枚硬币，步骤2是投掷第二枚硬币。如果我们使用丑来表示硬币的正面，使用 r 来表示硬币的反 
面，（//，孖)表示试验结果为第一枚硬币正面朝上，第二枚硬币也是正面朝上。沿用这种表示方法， 
我们可以描述该硬币投掷试验的样本空间 s 如下： 

S 二 {( H ， H )，( T ， H )，（ T , T )、 

因此，我们看到有四个试验结果是可能的。在这个例子中，列出所有的试验结果并不困难。 

多步骤试验的计数法则使得我们能够在不列出试验结果的情况下，也能够确定试验结果的数 

目。 

多步骤试验的计数法则 

如果一个试验依次进行 A 个步骤，第一步有&个可能的结果，第二步有 m 个可能的结 
果，依此类推，那么试验结果的总数就可由式… xw 给出。 
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回顾投掷两枚硬币的试验，按照顺序首先投掷一枚 (^1=2), 然后再投掷另一枚 ( m = 2), 我们 
根据计数法则知道共有 2 x 2=4 个不同的试验结果。正如在上文指岀的，它们是 S = {(//, H ), 
( H ， T )，( T ， H ) ， (7； 7 1 )}。在一个投掷6枚硬币的试验中，试验结果的数目等于 2 x 2 x 2 x 2 x 
2 x 2 = 64个 0 

有一种图形表达方式有助于把试验直观地表现岀来，并可以列举岀多步骤试验的结果，它被 
称为树形图 (tree diagram )。 图 4. 2就是拋掷两枚硬币试验的树形图，试验中步骤的顺'序为从树的 
左端移动到树的右端。步骤1对应于抛掷首枚硬币，它具有两个分支分别对应于两个可能的结 
果。步骤2对应于拋掷第二枚硬币，并且步骤1的每一个可能的结果都具有两个分支，分别对应 
于步骤2的两个可能结果。最终，树右端的每一点对应着一个试验结果。从树的左端结点通往树 
右端任一结点的每条路径都表示一个单独的结果次序。 



不用树形图，人们可能认为对一枚硬币投掷两次的试验只有三个试验结果是可能 


的： 0次正面、1次正面和2次正面。 


现在让我们来看一看，怎样利用多步骤试验的计数法则对肯塔基电力公司 （ KP & L ) 所面临的 
扩大生产能力项目进行分析。 KP & L 正在开始一个项目，其设计目的是增加它在北肯塔基一家工 
厂的发电能力。项目被分割为两个按顺序的阶段或 步骤： 阶段1是设计工作，阶段2是建设工 
作。由于对每一阶段都尽量严密地进行规划和控制，因此管理人员不能预测出完成项目每个阶段 
所需要的准确时间。对于以往类似建设项目的分析 显示： 完成设计阶段需要2、3或4个月，完 
成建设阶段则需要6、7或8个月。另外，由于用户对更多电力供应的迫切需要，管理者确定了 
用10个月完成整个项目的目标。 

因为该项目在设计阶段（步骤 1) 有3个可能的完成时间，在建设阶段（步骤 2) 也有3个可能的 
完成时间，所以在这里我们能够应用多步骤试验的计数法则确定总的试验结果 数为： 3 x 3=9 
个。为了描述试验结果，我们使用一个包括两个数字的符号。例如，（2, 6) 表示设计在2个月内完 
成，建设阶段在6个月内完成。这个试验结果导致了完成整个项目需要总共2 + 6 = 8个月。表 
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4. 1汇总了 KP & L 项目的全部9个试验结果，图 4. 3的树形图则显示了这9个结果（样本点）是怎 
样发生的。 


表 4.1 KP&L 项目的试验结果（样本点 ) 


步骤 1 

完成时间（月） 

步骤 2 

试验结果 

整个项目的 

( 设 计 } 


( 建 设 } 

的符号 

完成时间（月 } 

2 


6 

(2, 

6) 

8 

2 


7 

(2, 

7) 

9 

2 


8 

(2, 

8) 

10 

3 


6 

(3, 

6) 

9 

3 


7 

(3, 

7) 

10 

3 


8 

(3, 

8) 

11 

4 


6 

(4, 

6) 

10 

4 


7 

(4, 

7) 

11 

4 


8 

(4, 

8) 

12 


步骤 1 ( 设计） 

步骤 2 ( 建设） 

!试验结果 

整个项目的完成时间 


8 个月 

9 个月 

10 个月 

9 个月 

10 个月 

11 个月 

10 个月 

11 个月 

12 个月 
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计数法则和树形图都可以被用来帮助项目经理确认试验结果和确定可能的项目完成时间。根 
据图 4.3 的信息，我们看到整个项目将在8 —12个月内完工，并且9个试验结果中有6个能够满 
足所要求的10个月以内的完工时间。尽管确认试验结果是有用的，但我们还需要考虑怎样把概率 
值指派给各个试验结果，以估计项目将在要求的10个月内完工的概率。 

组合 ( combinations )。 当试验涉及到从#个项目的集合中选择其中 ti 个（通常小于 iV ) 的问题 
时，这第二种计数方法能够帮助我们计算试验结果的数目，它被称为组合计数法则。 


组合计数法则 

在同一时间从 W 个项目中抽取其中 n 个的组合数是 

i^\ - m_—_— 

式中 N \ = yVx ( yV - l ) x ( iV -2) x - x 2 xl ； 

n \ = n x {n - l ) x { n - 2) x *»* x 2 xl ; 

并且 0! =1 


(4.1) 


符号“！”叫做阶乘，举例来说， 5 的阶乘就是 5! = 5 x 4 x 3 x 2 x 1 = 120。 而对于 0 的阶 
乘，就定义为0! =： 1。 


从有限总体 yv 中抽样，组合计数法则用来计算能够抽取的容量为 n 的不同样本数目。 

作为组合计数法则的一个实例，考虑这样一个质量控制 程序： 检查者从5个零件中随机地抽 
取2件，以测试零件是否存在缺陷。问从5个零件中选择其中2件有多少个组合？根据公式 
(4. 1)，对于 7 V = 5且 n = 2 , 我们有 


r5 _ /5\ 5! _ 5 x 4 x 3 x 2 x 1 — 120 n 

° 2_ \2/ ~ 2!(5-2)! ~2 xlx 3 x 2 xl '"12"' 10 

因此，该试验共有10个结果是可能的。如果我们把5个零件分别加上标记为 A 、 B 、 C 、 D 和 E ， 
这10个组合或者说是10个试验结果就是八6、人0、人0、人£$(：30、3£、00、0£和0£。 

再举一个例子，我们考虑俄亥俄州的博彩系统，该系统从47个数字中随机地抽取6个数字， 
来确定周末彩票的获奖者。根据组合计数法则公式 (4. 1 ) ，我们知道从47个数字中抽取6个不同数 
字的方法总数为 


47、二 47! 一 47! — 47 x 46 x 45 x 44 x 43 x 42 
、6 ’一 6! (47-6)! 一 6!41! 一 6 x 5 x 4 x 3 x 2 xl -川“’川 

组合计数法则告诉我们，在彩票摇奖中共有超过1 000万个试验结果是可能的，也就是说购买了 
一张彩票的个人中奖机会是1/10737 573。 



组合计算规则表明彩票中奖机会非常的小。 
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从有限总体/ V 中抽样，组合方法用于计算容量为不同的样本的数目。 

排列 fpermutaticms )。 第三种计数法则是排列计数法则。在抽取的顺序也很重要的情况下，当 
我们从/ V 个项目的集合中抽取其中〃个时，使用它能够计算出试验结果的总数。在这类问题中， 
即使是同样的 n 个项目，如果取出次序不同的话，也被认为是不同的试验结果。 


排列计数法则 

在同一时间，从/ V 个项目中抽取其中^个的排列数是 


(4.2) 


排列计数法则与组合计数法则有紧密的联系，但具有同样项目数的试验，其排列数比组合数 
要多。这是因为每选择 n 个项目就有〃!种不同方法去排列这〃个项目。 

作为一个例子，我们再次考虑这样一个质量控制 程序： 检查者从5个零件中抽取2个以检查 
是否存在缺陷。问抽取方法有多少个排列数？利用公式 (4.2) 的计数法则，对于 /V = 5 且 n = 2, 


我们有 


p5 5! 二 5! 二 5 X4X3 x2x 1 

2 一 — (― 5 _r 2TT _ TT _ 3X2X1— ~ 


= 5 x 4 = 20 


因此，在必须考虑抽取次序时，该试验共有20个结果是可能的^如果我们把5个零件分别标记为 
A 、 B 、 C、D 和 E , 贝 "0 个排列结果就是 AB 、 BA 、 AC 、 CA 、 AD 、 DA 、 AE 、 EA 、 BC 、 CB 、 
BD 、 DB 、 BE 、 EB 、 CD 、 DC 、 CE 、 EC、DE 和 ED 0 


概率指派 

现在让我们来学习概率是怎样被指派给各个试验结果的。三种最常用的概率指派(赋值)方法是古 
典法、相对频数法和主观法。但不管采用什么方法，所指派的概率都必须满足概率的两个基本 要求。 

概率指派的基本要求 

1. 指派给每个试验结果的概率必须介于0 —1之间。如果我们以瓦表示第 i 个试验结果，以 
P (^) 表示它的概率，那么该要求可以表示为 

0^ P (^)^1, 对于所有的 i 都成立 （4.3> 

2. 所有试验结果的概率之和必定等于 U 对于〃个试验结果，该要求可表示为 

P(Ei) + P(E 2 ) +…+ P{ E n ) = 1 (4.4) 

当所有试验结果的可能性相等时，使用 古典法 ( classicalmethod ) 来指派概率是恰当的。如果有 
个可能试验结果的话，那么指派给每个试验结果的概率就是1/〃。这种方法能够自动地满足概 
率指派的两个基本要求。 

作为例子，考虑拋掷一枚硬币的试验。两个试验结果——正面和反面——是等可能的。因为 
两个等可能结果中的一个是正面，则观察到正面朝上结果的概率是1/2或0.50。同样地，观察到 
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反面朝上结果的概率也是1/2或 0. 50。 

举另外一个例子，考虑投色子试验。我们知道6种可能结果出现的可能性相等，因此对每个 
结果指派的概率为1/6。如果用 P ( l ) 表示色子朝上一面是1点的话，那么 P ( l ) = l /6 o 类似地， 

尸 (2) = 1/6、 P (3) =1/6, 尸 (4) =1/6、 P ⑸=1/6和 P (6) =1/6。我们还注 意到： 因为每个概 
率都大于或等于零且所有概率之和等于1，它们满足公式 (4. 3) 和 (4. 4) 的要求。 

当试验被重复很多次，并且我们能够得到足够的数据来估计各种试验结果出现的次数所占比 
例时，就可以利用 相对频数方法 (relative frequency method ) 进行概率指派。考虑这样一个例子：对 
某地方医院 X 射线部门病人的等候时间进行研究。下面的数据记录了连续20天在上午9: 00等候 
服务的病人 人数： 


等候人数 

该结果出现的天数 

0 

2 

1 

5 

2 

6 

3 

4 

4 

_3 


总计 20 


这些数据 表明： 在这20天里有2天，等候服务的病人数为0;有5天，等候的病人数为1; 
其他依此类推。利用相对频数方法，我们把概率2/20 = 0.10 指派给0病人的试验 结果； 把概率 
5/20 = 0.25 指派给1个病人的试验 结果； 把概率6/20 = 0.30 指派给2个病人的试验 结果； 把 
概率 4/20=0. 20指派给3个病人的试验 结果; 把概率3/20 = 0. 15指派给4个病人的试验结果。 

和使用古典法一样，当我们使用相对频数方法时，也自动地满足公式 （4.3) 和 （4.4) 的两 
个基本要求。 

当试验结果发生的可能性相等这个假定不符合实际情况时，或者当只能得到很少的相关数据 
时，这时使用主 观方法 (subjective method ) 来指派概率最为合适。为了利用主观方法向试验结果指 
派概率，我们可以使用任何可以得到的信息，比如我们的经验或是直觉。在综合考虑了所有可用 
的信息之后，得出的概率值就表示我们对发生某个试验结果的 置信度 （范围为0 — 1)。因为主观概 
率表示的是某个人的置信度，它是属于个人的。在使用主观方法时，对同一个试验结果，不同的 
人可能会指派不同的概率。 

我们在使用主观概率指派方法时，要特别注意，确保主观概率要满足公式 (4. 3) 和 (4. 4) 的要 
求。指派给每个试验结果的概率值都必须介于 0—1 之间，并且所有试验结果的概率之和必须等于 

lo 

考虑 Tom 和 Judy Elsbemd 申请购房的例子，有两个结果是可能的： 

他们的申请被 接受； 

&=他们的申请被拒绝。 

Judy 相信他们的申请被接受的概率是0.8，因此 Judy 指派的概 率为： P (^ i ) = 0.8, P ( E 2 ) = 
0.2。可是， Tom 认为他们的申请被接受的概率只有0.6，因此他指派的概 率是： P ( E { )= 0.6, 
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P (&)=0.4 o 我们注意到 Tom 对^的概率估计反映了这样一个 事实： 他对申请被接受可能性的 
看法比 Judy 悲观。 

无论 Judy 还是 Tom , 他们指派的概率都满足两个基本要求。而他们对概率的估计不同这一事 
实，则强调了主观方法的个人属性。 * 

即使在能够应用古典方法和相对频数方法的商务环境中，经理们可能仍然愿意使用主观概率 
估计。在这种情况下，往往需要把从古典法和相对频数法得来的估计值与主观概率估计相结合， 
才能得到最好的概率估计。 



贝叶斯理论（见 4. 5 节）提供了一种计算均值的方法，可将先验主观概率与修正的或 
事后的概率结合起来。 


肯塔基电力公司项目的概率 

为了对 KP & L 项目进行深一步的分析，我们必须向表 4.1 列出的9个试验结果中的每一个赋 
予概率。在经验和判断的基础上，管理者得出了试验结果的可能性不等的结论。因此，不能使用 
古典法来指派概率。管理者于是决定，对 KP & L 公司过去三年来承担的类似项目的完工时间进行 
研究，表 4. 2列出了对40个类似项目的研究结果。 

在检查完研究结果之后，管理者决定使用相对频数方法指派概率。虽然管理者能够作出主观 
概率估计，但觉得目前的项目与以前的40个项目非常近似，因此判断相对频数方法是最佳的。 


表 4. 2 40 个 KP&L 项目的完工情况 


阶段 1 

完工时间（月） 

阶段 2 

样本点 

具有该完工时间的 

过去项目数 

2 


6 

(2, 6) 

6 

2 


7 

(2, 7) 

6 

2 


8 

(2, 8) 

2 

3 


6 

(3, 6) 

4 

3 


7 

(3, 7) 

8 

3 


8 

(3, 8) 

2 

4 


6 

(4, 6) 

2 

4 


7 

(4, 7) 

4 

4 


8 

(4, 8) 

_6 





总计 40 


在使用表 4. 2的数据计算概率的过程中，我们注 意到： 结果 （2, 6) ——阶段1在2个月内完 
成，阶段2在6个月内完成——在过去的40个项目中发生过6次。因此我们能够使用相对频数方 
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法给这个结果指派概率为6/40 = 0. 15。类似地，结果(2, 7) 也在40个项目中发生过6次，其概率 
为6/40 = 0.15。继续以这种方式计算，我们把得到的 KP & L 项目样本点的概率指派结果列在表 4. 3 
中。注意 P (2, 6) 表示样本点 (2, 6) 的 概率； P (2,7) 表示样本点 (2,7) 的概率，依此类推。 


表 4. 3 KP&L 项目基于相对频数方法的概率指派 


样本点 

项目完工时间 

样本点的概率 

(2, ： 6) 

8 个月 

P(2,6) =6/40=0. 15 

(2, 7) 

9 个月 

P(2,7) =6/40=0. 15 

(2, 8) 

10 个月 

P(2,8) =2/40=0.05 

(3, 6) 

9 个月 

P(3 9 6) =4/40=0. 10 

(3, 7) 

10 个月 

尸 (3,7) =8/40=0. 20 

(3, 8) 

11 个月 

P(3,8) =2/40=0,05 

(4, 6) 

10 个月 

P(4,6) =2/40=0.05 

(4, 7) 

11 个月 

尸 (4,7) =4/40=0. 10 

(4, 8) 

12 个月 

尸 (4, 8) =6/40=0.15 

总计 1.00 



1. 在统计学中试验的概念与物理学中试验的概 
念很不一样。物理学的试验通常在试验室或 
可控的环境下进行，以便了解原因和结果。 
而统计学试验的结果则取决于概率，即使试 
验以完全相同的方式被重复，也可能会发生 
根本不同的结果。由于概率对试验结果有如 


此的影响，统计学试验有时又被称为 随机试 

验 。 

2. 当我们从容量为 W 的总体里面无放回地抽 
取一个随机样本时，可以应用组合计数法则 
来计算能够选取的^容量不同样本的个 
数。 



方法 

1. 一个试验要经过三个步骤，第一步有 3 个可能结果，第二步有 2 个可能结果，第三步有 4 个可 
能结果。问整个试验存在多少个试验结果？ 

2 一 从 6 个项目的集合中抽取 3 个，共有多少种方法？分别用字母 A 、 B 、 C 、 D 、 E 和 F 

来表示各个项目，列出 3 个项目的每一种组合。 
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3. 从 6 个项目的集合中选取 3 个的排列数共有多少？分别用字母 A 、 B 、 C 、 D 、 E 、 F 来表示各个 
项目，列出 3 个项目 （ B 、 D 、 F) 的每一种排列。 • 


4. 考虑抛掷一枚硬币 3 次的试验。 

a. 画出试验的树形图。 

b. 列出所有试验结果。 

c . 每种试验结果的概率分别是多少？ 

5. 假定某试验具有 5 个可能性相等的结 果：& 、 & 、私、 £ 4 和 E 5 o 给每个结果指派概率，使其 
能够满足公式 (4.3) 和 (4. 4) 的条件。你使用了什么方法？ 

6 ^某个具有 3 个可能结果的试验被重复了 50 次，并且我们知道及出现了 20 次，&出 
现了 13 次，私出现了 17 次。给每个结果指派概率，你使用了什么方法？ 

自测题 

7. —位决策者对某试验的 4 个结果主观地指派了如下概率 ：尸 （五 ,） = 0. 10, P ( E 2 ) = 0. 15, P 
( E 3 ) = 0.40, P (五 4 ) =0.20 。 这是有效的概率指派吗？检查其是否满足公式 （ 4.3) 和公式 
(4,4) 0 


应用 

8. 在 Milford 市，申请区域变更要经过一个两步骤的 过程： 先由规划委员会评议，再由市议会 
最终决定。在步骤1，规划委员会将对区域变更请求进行审查，给出肯定或否定的意见。在 
步骤2,市议会将审查规划委员会的意见，并投票表决是通过还是否决该区域变更。区域变 
更申请是由一家房地产公司申请的。把申请过程作为一个试验。 

a. 该试验有多少个样本点？列出所有样本点。 

b. 画出试验的树形图。 

9. 简单随机样本是从容量为#的总体中选取容量为〃的样本，以获得能够推断总体特 
征的数据。假定我们有一个包括 50 个银行账户的总体，想要选取一个 4 账户的随 

自测题 

机样本以了解总体特征。问有多少个 4 账户的不同随机样本是可能的？ 

10. 近年来，风险资本投资在投向公司的所有资金中所占的比例有了很大增长。根据 
Venture Economics ( Investors Business Daily , April 28, 2000) 提供的数据， 1999 年共 
发生了 2 374 起风险资本投资事件。在这些投资里面， 1 434 起投向了位于加利福尼 
亚州的公司， 390 起投向了位于马萨诸塞州的公司， 217 起投向纽约州的公司， 
112起投向科罗拉多州的公司。在接受资金的公司中，有22%处于发展的早期阶 
段，有 55% 处于扩张阶段。 

假定你想要在这些公司里面随机地选取一家来了解它们是怎样使用资金的。 

a . 你选到的公司来自加利福尼亚州的概率是多少？ 

b. 你选到的公司不是来自上面提到的这四州的概率是多少？ 

c . 该公司不是处于发展早期阶段的概率是多少？ 
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d . 假定处于发展早期阶段的公司平均分布于全国各地，有多少家接受风险投资的马萨诸塞州公 
司处于它们的早期发展阶段？ 

e . 投资的总额是324亿美元，估计投往科罗拉多州的数额。 

11. Strom 建设公司向两份合同投标。公司老板已经确认了所有的可能结果，并主观地给它们指派 
概率 如下： 


试验结果 

是否得到合同1 

是否得到合同2 

概率 

1 

是 

是 

0. 15 

2 

是 

否 

0. 15 

3 

否 

是 

0. 30 

4 

否 

否 

0. 25 


a . 这些概率指派有效吗？为什么？ 

b . 如果需要的话，我们应该怎样使概率指派变得有效？ 

12. 州彩票已经成为基金增长的最普遍方式。 Powerball 彩赛对几个州开放，购买该彩票时，参与 
者从数字 1—49 中选择5个数字，然后再从数字1 一 42中选择一个幸运数字，全部选对者就 
可赢得 Powerball 大奖。1998年某个星期，该彩票的大奖金额除了向正确选择了头5个数字的 
彩民支付的10万美元以外，已累积达到了 1亿5千万美元。 

a . 计算选择头5个数字的方法总数。 

b . 正确选择头5个数字从而获得10万美元奖金的概率是多少？ 

c . 赢得 Powerball 大奖的概率是多少？ 

13. 生产牙膏的某公司正在研究5种不同的包装设计。假定每种设计被顾客选中的可能性是相等 
的，你将怎样给每种包装设计指派选中的概率？在一个实际的试验中，100位顾客被要求选择 
他们喜欢的设计，并取得了下列数据。这些数据支持选中每种设计的可能性相等这一假设 
吗？请解释。 


设计 

1 

2 

3 

4 

5 


被选中的次数 

5 

15 

30 

40 

10 


4.2 事件和它们的概率 

到目前为止，我们还是在日常用语的意义上使用名词“事件”，现在我们来介绍与概率相关 


的术语事件 ( event ) 的正式定义。 
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事件 

事件是由若干样本点组成的集合。 

作为一个应用实例，让我们回到 KP & L 问题上。假定项目经理关心的是整个项目能在10个月 
以内完工这一事件，参见表4.3，我们 看到： 有6个样本点（2,6),(2,7),(2,8),(3,6),(3,7)和 
(4,6), 能够使项目在10个月以内完工。用字母 C 来表示项目在10个月以内完成这一事件，我 
们 记做： 


C ={(2,6), (2,7), (2,8), (3,6), (3,7), (4,6)} 

如果这6个样本点中的任何一个出现的话，我们就说事件 C 发生了。 

KP & L 项目经理还可能关心的其他事件 包括： 

L =项目完成时间小于10个月的事件 
M = 项目完成时间超过10个月的事件 

利用表 4.3 的信息，我们发现这些事件包括下列样 本点： 

L ={(2,6)，(2,7), (3,6)} 

M ={(3,8), (4,7), (4,8)} 

KP & L 问题中的各个事件都能够定义，但无论是哪种情况，在确认事件时，都要注意它是否 
是试验样本点的集合。 

给定如表 4. 3所示的样本点概率，我们就能够利用下面的定义计算 KP & L 经理需要考虑的任 
何一个事件的 概率。 

事件的概率 

任何事件的概率就等于构成该事件的所有样本点的概率之和。 

利用该定义，我们通过对构成事件的所有样本点的概率求和，就可以计算某个事件的概率。 
现在我们来计算项目将在10个月以内完成的概率。因为该事件可表示为 C = {(2,6), (2,7), (2, 
8), (3,6), (3,7), (4,6)}, 所以事件 C 的概率尸 （ C ) 由以下公式 给出： 

P ( C ) = P (2,6) + P (2,7) + P (2,8) + P (3,6) + P (3,7) + F (4, 6) 

使用表 4. 3样本点的概率，我们有 

P ( C ) =0. 15 +0. 15+0. 05 +0. 10+0.20+0.05 = 0.70 

类似地，由于项目完成时间小于10个月的事件就是1= {(2, 6), (2,7), (3,6)}, 该事件的 
概率可计算 如下： 

P ( L ) = P (2, 6) + P (2,7) + P (3,6) 

= 0. 15+0. 15+0.10=0.40 


最后，对于项目完成时间大于 10 个月的事件，我们有 M ={(3,8), (4,7), (4,8)}, 因此 





P ( M ) = P (3,8) + P (4,7) + P (4,8) 
= 0.05+0. 10+0.15 = 0.30 
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利用这些概率结果，现在我们能够告诉 KP & L 的经理，项目在10个月以内完工的概率是 
0. 70,完工时间少于10个月的概率是0.40,完工时间超过10个月的概率是0.30。这种计算事件 
概率的方法可以对 KP & L 经理关心的任何事件重复使用。 

只要我们能够确认一个试验所有的样本点，并且能够向每个样本点指派概率，我们就可以利用 
定义来计算事件的概率。但是，有许多试验的样本点数目非常庞大，以至于要确认所有的样本点以 
及确定与之相关的概率，即使可能，也是非常繁琐的。在本章剩下的部分，我们将介绍一些基本的 
概率关系，利用这些基本关系，我们可以在不知道所有样本点概率的情况下，计算事件的概率。 



1. 样本空间 S 也是一个事件。因为它包含了 
所有的试验结果，故样本空间的概率等于 
1。即尸⑶=1。 

2. 在用古典方法指派概率时，其假设条件是每 


个试验结果发生的可能性相等。在这种情况 
下，通过计算事件中包括的试验结果数目，再 
除以试验结果的总数，就能够计算出事件的概 
率。 



方法 

14. 某试验有4个等可能的结果：、五 2 、 私和 

a . 私发生的概率是多少？ 

b . 任意两个结果（如&或私)发生的概率是多少？ 

c . 任意三个结果（如&或私或私)发生的概率是多少？ 

15. 考虑从一副52张牌中抽取1张牌的试验，每张牌对应的样本点的概率为1/52。 
醜二彭 a . 列出事件“抽中 A ” 的所有样本点。 

白 渐 |颖 

b . 列出事件“抽中草花”的所有样本点。 

c . 列出事件“抽中花牌 ( J 、 Q 、 K )” 的所有样本点。 

d . 计算与 （ a )、（ b )、（ c ) 中每个事件相关的概率。 

16. 考虑投掷一对色子的试验。假定我们关心的是两枚色子朝上一面所显示点数的总和。 

a . 有多少个样本点是可能的？（提 示： 利用多步骤试验的计数法则） 

b . 列出所有样本点。 
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C. 点数之和为7的概率是多少？ 

d . 点数之和为9或更大值的概率是多少？ 

e . 因为每次投掷能得到6个可能的偶数值（2, 4, 6, 8，10， 12) 和5个可能的奇数值（3,5, 
7,9，11),色子显示的点数之和为偶数的情况将比出现奇数的情况更经常地发生。你同意这 
种说法吗？请解释。 

f . 你使用什么方法来指派需要的概率？ 


应用 


17. 参见表 4. 3 KP&L 公司的样本点和样本点概率。 

a . 如果在设计阶段（阶段 1) 完成时间用去4个月的话，将超出预算。对于事件“设计 

阶段超出预算”，列出所有样本点。 、 

b . 设计阶段超预算的概率是多少？ 

c . 如果建设阶段（阶段 2) 完成时间用去8个月的话，将超出预算。对于事件“建设阶 
段超预算”，列出所有样本点。 

d . 建设阶段超预算的概率是多少？ 

e . 每个阶段都超出预算的概率是多少？ 

18. 假设一个大型公寓的经理对于下个月存在的空房数量指派了以下的主观概率 估计： 



• 列出下面每个事件的样本点，并给出事件的概率。 

a . 无空房。 

b . 至少有4套空房。 

c . 两套或更少的空房。 

19. 某家具店的经理每周销售0 — 4只中国柜子，在过去经验的基础上，他指派给各个销量的概 
率为： P (0) =0.08, P ( l ) = 0. 18, P (2) = 0.32, 尸⑶ = 0.30, P (4) = 0. 12。 

a . 这些概率指派有效吗？为什么？ 

b . 以 A 代表一周销售小于等于2只的事件，计算 P (4)。 

c . 以 B 代表一周销售大于等于4只的事件，计算 P ( B ) 0 


20. 《财富》杂志发行包括财富500强公司信息在内的年度特刊。下列数据显示了拥有财富500强 
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公司最多的6个州，以及位于这些州的公司总部的数量 （ Fortune , April 17, 2000) : 


州名 

公司数目 

纽约 

56 

加利福尼亚 

53 

得克萨斯 

43 

伊利诺伊 

37 

俄亥俄 

28 

宾夕法尼亚 

28 


假设要选取一家500强公司进行问卷调查，下列事件的概率分别是多少? 

a . 以 W 代表公司总部位于纽约的事件，计算 P ( N ) 0 

b . 以 r 代表公司总部位于得克萨斯的事件，计算 p ( r )。 

c . 以 B 代表公司总部位于这6个州中任何一个的事件，计算 P ( B ) 0 

21. 对 TarponSprings 学院的50名学生进行了课外活动情况调查，结果 如下: 


参加课外活动的次数 频数 

0 8 

1 20 

2 12 

3 6 

4 3 


a . 以4代表学生至少参加1次活动的事件，计算 P ( A ) 0 

b . 以 B 代表学生参加3次或以上活动的事件，计算 P (幻。 

c . 学生恰好参加2次活动的概率是多少？ ^ 

4.3 概率的一些基本关系 
事件的补 

给定一个事件4 ， A 的补 ( complementof ⑷就定 义为： 是由所有不属于4的样本点构成的事 
件。4的补记作，，图 4. 4被称为 维恩图 （Verm diagram ), 它图示说明了补的概念。图上的矩形 
区域代表试验的样本空间，因此包含了所有可能的样本点。圆圈代表事件只包含属于4的样 
本点。矩形的阴影区域包含了所有不属于事件>1的样本点，根据定义，它就表示4的补。 

在任何有关概率的应用中，要么是事件要么是它的补，必然会发生。因此，我们有 

P ( A ) + P ( A C ) =1 

为了解出 P ( A ), 我们得到下列 公式： 
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利用朴来计篇概率 




P ( A )=1 - P { A C ) 

(4.5) 


公式 (4. 5) 表示： 如果事件4的补的概率已知的话，就能容易地计算出事件4的概率。 



样本空间 S 


事件4的补 


我们考虑下面的 事例： 销售经理在审查过销售报告以后，发现有80%的对新顾客的接触没有 
销售出产品。用4来表示销售事件，用 f 表示没有销售事件，经理发现 P ( f )=0.80。 利用公 
式 (4.5), 我们有 


P ( A ) =1 - P ( A C ) =1-0. 80=0.20 

我们可以得到结论，对新顾客的接触有20%的概率能够销售出产品。 

再举另外一个例子，采购代理发现供应者发出无缺陷货物的概率为0.90。利用补，我们能够 
得到货物中含有缺陷产品的概 率是： 1-0.90=0.10。 


加法法则 

当我们面对两个事件，并且想要知道两个事件中至少有一个发生的概率时，加法法则就能够 
发挥作用。也就是说，对于事件4和 S ， 我们想知道事件4或事件 B 或者两者都发生的概率。 

在介绍加法法则之前，我们需要讨论两个与事件的组合有关的 概念： 事件的并和事件的交。 
给定两个事件4和 A 和 B 的并 (union of/land B ) 定义 如下： 

两搴件的并 

4和 B 的并就是这样一个事件，该事件包含属于4的或属于的或同时属于两者的所有 
样本点，记作 /1 U B 。 


一个事件和它的补的并集就是整个样本空间 


图 4. 5的维恩图描述了事件4和 B 的并。注意到两个圆圈既包含了事件4的所有样本点， 
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也包含了事件丑的所有样本点。两个圆圈有部分重叠的情况表明，一些样本点同时属于4和丑。 

两事件 4 和 S 的交 (intersection of two events A and B ) 定义如下： 

两蓽件的交 

给定两个事件4和4和 S 的交就是包含了所有同时属于事件4和丑的样本点的事 
件，记作 an 丑。 



图 4.6 的维恩图描述了两事件的交。两个圆圈重叠的区域就是交，它包含了既属于4又属 
于5的样本点。 

现在让我们继续进行加法法则的讨论。 加法法则 （ additionlaw ) 提供了一种方法，可用来计算 
事件4发生或 B 发生或者两者同时发生的概率。换句话说，加法法则能够计算两个事件的并的 
概率。加法法则的数学表达 如下： 


加法法则 




P(AUfi) = P ( A ) + P ( B ) - PiAHB ) 

(4.6) 



图 4. 6 事件 A 和 B 的交 

为了直观地理解加法法则，我们注意到加法法则公式的头 商项： P ( A ) + P ( B ), 它包括了 
中的所有样本点。但是，因为交 / ms 中的样本点同时属于 >4和 B ， 当我们计算 P (4) + 
p ( b ) 时，实际上是把 anB 中的每一个样本点计算了两遍。于是，通过减去 p(An B ), 我们能 
够把重复计算给修正回来。 

作为加法法则的一个应用例子，我们来考虑一个拥有50名雇员的小型加工厂案例。每个工人 
都被要求按时完成指派给他们的工作，并且所加工的产品还要通过最后的品质检査。但有时一些 
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工人因为没有按时完成工作和/或生产了次品，而没有达到操作标准。在操作情况评价阶段的末 
期，生产经理 发现： 50个工人中有5个未按时完成 工作； 有6个生产了 次品； 有2个工人既未按 
时完成工作又生产了次品。我们令 

L = 未按时完成工作的 事件； 

/)= 生产了次品的事件。 

利用相对频数信息可以得到下列 概率： 


P ( L ) = = 0. 10 

P(D)~=0. 12 
P { LDD ) =^- = 0.04 

在检查完操作数据以后，生产经理决定把差的操作等级给予那些未按时完成工作或生产了次 
品的工人。与此相关的事件是 LUD 。 问生产经理给予雇员一个差操作等级的概率是多少？ 

我们注意到这个概率问题是关于两事件并的，需要求的是 P ( LUD ) 0 使用公式(4.6)，我们有 

P(LU D ) = P ( L ) + P { D ) - P ( LDD ) 

因为该公式右边的三个概率值已知，我们能够得出 

P(LU D ) =0. 10+0. 12-0.04=0. 18 
这个结果表示随机选择到差等级工人的概率是 0. 18。 

再举一个加法法则的例子，最近由一家主要计算机软件公司的人事经理进行了一项研究。结 
果发现在两年内离开公司的雇员当中，有30%是因为不满意薪金状况，有20%是因为对工作指派 
不满，有12%的上述雇员指出他们既对薪金待遇又对工作指派不满意。问在两年内离开公司的 
雇员当中，离职原因是对薪金不满，或对工作指派不满，或对两者都不满意的概率是多少？我 
们令 


5 =雇员因为薪金离职的 事件； 

见=雇员因为工作指派离职的事件。 

有 P ( W ) =0.20, /"(SPI 取 ）=0. 12。使用公式 (4. 6)，我们得到 

p(su w ) = p ( s ) + p ( w ) - p ( snw ) = 0 , 30+ o . 20 - o . 12 = 0.38 


即雇员因为薪金或工作指派原因离职的概率为 0.38。 

在结束加法法则的讨论之前，再来考虑一下由互斥事件 (imiUially exclusive events) 引起的特殊 
情况。 

互斥事件 

如果两个事件没有共同的样本点，我们就称这两个事件是互斥的。 
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如果事件4和 B 中一个事件发生时，另一个事件就不会发生的话，它们就是互斥事件。因 
此，4和 B 互斥要求它们的交必须不包含任何样本点。图 4. 7的维恩图描述了两个互斥事件。在 
这种情况下 P ( ADB ) =0,并且加法法则能够表达为如下 形式： 

S 斥事件的加法法则 

P ( AUB ) = P ( A )^ P ( B ) 




方法 

22. 假定样本空间具有5个可能性相等的试验结果： ，五 2 ， 私， &，及。我们令 

A - { ^i, Ei) 

B = { E3, E4} 

C = { E2 , Es , E5 } 


a . 计算 P ⑷、 P ( B ) 和 P ( C)o 

b . 计算 4 和 B 是互斥的吗？ 

c . 计算 f 、 C c 、 P(A C ), P( C c ) o 

d . 计算妒和 pMub c J 。 

e . 计算 C )。 

23. 假定我们有样本空间 S 二 {Eh E 2 ， E 3 , E 4 ， E 5 ， E 6 , En}. 其中私 ，芯 2 ,… ， E , 表 

示样本点。给定下面的概率 指派： P ( ^ 1 ) =0. 05, P(E 2 ) =0.20, P(E 3 ) =0.20, P 

自测題 

(E 4 ) =0.25, P(E5)=0. 15, P{Ee)=0. 10, P ( &) =0. 05 。我们令 
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A = { E \, ^ 4 , E ^} 

B - { Ei , E4 , En ] 

C = { Ei 9 £ 3 , Esy Ei } 

a . 计算 P ( A ), P(BW P { C ) 0 

b . 计算和 P ( A\J B) 0 

c . 计算 4 DB 和 P (4 n^) 0 

d . 事件 4 和（:是互斥的吗？ 

e . 计算沪和 P ( B C ) 0 


应用 

24. 根据《商业周刊》的 Harris 民意测验，有14%的成年人认为在1998年股市很有可能暴跌，而 
43%的成年人认为在1998年股市有可能暴跌 Week ， December 29, 1997)。如果我们随 
机地选择一名成年人，则他或她认为股市不可能暴跌的概率是多少？ 


25. 30家最大的债券基金提交了期间截止到2000年3月31日的1年和5年期投资百分比回报率 
数据 （ 7 Vi € ITaM Sfreef JoumaZ，April 10, 2000) 。假定我们认为1年期回报率超过2%属于高回报， 

5年期回报率超过44%属于高回报。基金中有一半1年期回报率超过了 2%，有12家基金的5 
年期回报率超过了 44%，有6家基金1年期回报率超过了 2%且5年期回报率超过了 44%。 

a . 计算基金取得1年期高回报率的概率，取得5年期高回报率的概率，以及取得1年期高回 
报率又取得5年期高回报率的概率。 

b . 基金取得1年期高回报率或者5年期高回报率或者同时取得两者的概率是多少？ 

c . 基金既未取得1年期高回报率又未取得5年期高回报率的概率是多少？ 

26. 30家最大的股票和权益基金提交了期间截止到2000年3月31日的1年和5年期百分比投资 
回报率数据（771€奶 沿紐你 / oumaZ，April 10, 2000)。假定我们认为1年期回报率超过50%属于 
高回报，5年期回报率超过300%属于高回报。有9家基金的1年期回报率超过了 50%，7家 

基金的5年期回报率超过了 300% , 5家基金的1年期回报率超过了 50%且5年期回报率超过 
了 300% 0 

a . 基金取得1年期高回报率的概率是多少？取得5年期高回报率的概率是多少？ 

b . 基金既取得1年期高回报率又取得5年期高回报率的概率是多少？ 

c . 基金既未取得1年期高回报率又未取得5年期高回报率的概率是多少？ 

27. 《商业周刊》对其消费者进行了一次关于他们平时酒类消费的调查，结果发现有57%的消费者 
消费国产酒，33%的消费者消费进口酒，63%的消费者消费过酒 （ Business Week 1996 Worldwide 
Subscriber Study )。 问《商业周刊》的消费者平时既消费国产酒又消费进口酒的概率是多少？ 

28. 一个对杂志消费者的调查 表明： 过去12个月以来，他们中的45.8%因为商务原因而租 
车，54%因为私人原因而租车，30%既因商务又因私人原因租车。 

自测题 
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a . 过去12个月以来，消费者因为商务或私人原因而租车的概率是多少？ 

b . 过去12个月以来，消费者既不为商务又不为私人原因而租车的概率是多少？ 

29. 根据人口普查署的数据，美国的人口死亡率为每年2425000人。国家健康统计中心报告称 
1997年导致死亡的三个主要原因分 别是： 心脏病 （725 790) 、癌症 （537 390) 以及中风 (159 
877) 。我们以//、 C 、 S 来分别代表某人死于心脏病、癌症和中风的事件。 

a . 利用数据来估计 P ( H )、 和 P ( S )。 

b . 事件//和（:是互斥的吗？计算 P ( HHC )。 

c . 某人死于心脏病或癌症的概率是多少？ 

d . 某人死于癌症或中风的概率是多少？ 

e . 计算除以上三种原因以外，其他原因导致死亡的概率是多少？ 


4.4 条件概率 


一个事件的概率往往受到相关事件是否发生的影响。假定有一'个事件 A ， 其概率为 P ( A ) o 
如果我们得到了新的信息，知道以 B 表示的相关事件已经发生，我们需要利用这个信息来计算事 
件>1的新概率。事件4的新概率就被称为条 件概率 (conditional probability ) ,记做 J 5)。 符号 
“丨”表示这样一个事实 •_ 我们在给定事件 B 已经发生的条件下考虑事件4的概率。因此，符号 
读做“给定 B 条件下4的概率”。 

举一个条件概率的应用例子，考虑一个在美国东部某中心城市警察局的男性和女性职员晋升 
的情况。该警察局有1 200人，包括960位男职员和240位女职员。在过去两年里，有324人得 
到了提升。其中男性职员和女性职员的具体晋升情况显示在表 4.4 中。 


表 4. 4 过去两年来瞀察局职员的晋升情况 



男职员 

女职员 

总计 

晋升 

288 

36 

324 

未晋升 

672 

204 

876 

总计 

960 

240 

1 200 


在检査过有关晋升记录以后，基于有288名男职员受到了提升，而只有36名女职员得到提 
升这一事实，女职员委员会对该警察局提出了性别歧视指控。警察局的管理层争 辩说： 女性职员 
相对较低的提升数不是由于性别歧视造成的，而是因为警察局里的女性人数本来就较少。现在让 
我们来说明如何利用条件概率来分析歧视指控。 

令 M = 职员是男性 事件； 

W = 职员是女性 事件； 

A = 职员得到晋升 事件； 

A c =职员未被晋升事件。 
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把表 4. 4的数据值除以总职员数1 200,能够使我们将可用的信息汇总为下列概 率值： 

/>( MA 4) =288/1 200 = 0. 24 =随机选择到的职员是男性并且得到晋升的概率 
P ( MnA c ) =672/1 200=0. 56 =随机选择到的职员是男性且未得到晋升的概率 
P ( WDA ) =36/1 200 =0.03 = 随机选择到的职员是女性并且得到晋升的概率 
POm A c ) =204/1200 = 0. 17 =随机选择到的职员是女性且未得到晋升的概率 


因为这些值的每一个都给出了两个事件的交的概率，故被称为联 合概率 (joint probabilities )。 表 4. 5 
汇总了警察局职员的晋升情况，它就是一个 联合概率表。 

表 4. 5 晋升的联合概率表 



联合概率表边缘的值提供了每个单独事件的概率，它 们是： P ( M ) =0. 80, P ( W ) =0.20, P 
( A ) =0.27，/>( f )=0.73。 因为这些概率的位置处在联合概率表的边缘，所以被称为 边际概 
率。 我们注意到通过把联合概率表中对应的每行或每列的联合概率值加总起来，也能得到边际概 
率。例如，被提升的边际概 率是：尸 + 根据边际 

概率，我们看到80%的警察是男性，20%的警察是 女性； 所有警察中的27%得到了提升，73% 
未被提升。 

我们通过计算职员在给定是男性的情况下得到提升的概率，来开始条件概率的分析。使用条 
件概率的符号，我们想要确定的是 P ( A \ M ) 0 为了计算 P ( A \ M ), 我们首先意识到该符号意味 
着: 在给定的事件 M (职员是男性）已经存在的条件下考虑事件 4( 晋升）的概率。因此告诉 
我们：我们现在只关心960位男性职员的晋升情况。因为960位男性职员中有288位得到了晋 
升，所以职员在给定为男性条件下得到晋升的概率是 288/960 = 0. 30。换句话说，给定某职员为 
男性，那么他有30%的机会在过去两年内获得晋升。 

因为表 4. 4的值显示了每个类型的职员数，该方法较易于使用。但我们现在想要说明的是怎 
样利用相关的事件概率，而不是表 4.4 的频数数据，来计算像 />( AM ) 这样的条件概率。我们已 
经知道 P (刈 M )= 288/960 = 0.30。现在我们把分子和分母同除以1 200,即本问题中的职员 总数： 

288 _ 288/1 200 _ 0. 24 ^ 

P ( A \ M ) = %0 - %0/1 200 - 0 8() -0. 30 

现在我们看到能够通过 0.24/0. 80来计算条件概率 P ( A \ M ) 0 参见联合概率表4.5,尤其是 
注意到 0.24 是 A 和 M 的联合概率，即尸 (AH M ) =0.24。我们还注意到 0. 80是随机选择到男 
性职员的边际概率，即 P ( M )=0.80。 因此，条件概率 PMIM ) 能够作为联合概率和边际概率 P 
MnM ) 的比率 Hm ) 而得出。 
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P ( A \ M ) = 


P ( ADM ) ^ 0,24 
P ( M ) ~ 0. 80 


= 0.30 


条件概率能够用联合概率比上边际概率而计算出来的事实，使得我们可以得到下列计算两事 
件4和条件概率的通用 公式： 


条件概率 

P ( A \ B ) 

(4.7) 

或 

p ( BiA )= L Hxf L 

(4.8) 


图 4. 8的维恩图有助于对条件概率的直观理解。右边的圆圈表示事件 B 已经发生，与事件4 
重叠的圆圈部分代表事件我们知道一旦事件 b 发生，则能够观察到事件4的惟一途径 
是事件 （an 发生。因此，比率 p (4 nfi )/ p ( B ) 给出了在给定事件已经发生的情况下观察到 
事件4的条件概率。 

让我们回到针对女性职员的歧视问题。表 4.5 第一行的边际概率 显示： 一个职员得到晋升的 
概率是尸（幻 =0.27( 不管职员是男性还是女性）。但是，歧视问题上的批评意见涉及到两个条件 
概率： P ( AIM ) 和 P (刈 TF )。 也就是说，职员在给定为男性的条件下，得到晋升的概率是多少？ 
职员在给定为女性的条件下，得到晋升的概率是多少？如果这两个概率是相等的，则说明男性职 
员和女性职员晋升机会相同，因此性别歧视的指责将失去依据。不过，如果两个条件概率不同， 
就将支持关于男性和女性职员在晋升问题上受到区别对待的指责。 


事件 ACiB 



我们已经确定了 P ( A \ M ) =0.30,现在让我们利用表 4.5 的概率值和公式 （4.7) 的条件概率基 
本关系，来计算一个职员在给定是女性的条件下得到晋升的概率，即 P ( A \ W ) Q 利用公式 
(4.7)，我们得到 


P { A \ W ) = 


P ( AnW ) ^ 0. 03 
P ( W ) " 0. 20 


= 0. 15 


根据这个结果，你得出了什么结论？ 一个职员在给定为男性的条件下得到晋升的概率是0.30,两 





172 商务与经济统计 


倍于在给定为女性条件下的晋升概率 0. 15。尽管使用条件概率本身不能证明在本例中存在性别歧 
视，但得出的条件概率值支持女性职员提出的指责。 


独立事件 

在上例中， P ( A ) =0.27, P ( A \ M ) =0. 30, P ( A \ W )=0. 15 0 我们 看到: 晋升(事件 >0 的概 
率受到职员是男性还是女性的影响。尤其是，因为我们称事件4和 M 是相关 
事件。即事件 M (职员为男性）是否发生影响或改变了事件 4( 晋升）的概率。类似地，因为，我们 
称事件4和 TT 是相关事件。但是，如果事件4的概率不因发生事件 M 而改变的话，即 P 
(A \ M ) = P ( A ) 9 我们称事件4和 M 是独 立事件 (independent events )。 两个事件互相独立的定义 
如下： 


独 IZ 事件 



如果 

P ( A \ B ) = P ( A ) 

(4.9) 

或 

P ( B \ A ) = P ( B ) 

(4.10) 

则称两事件 4 和是独 立的； 否则称两事件是相关的。 



乘法法则 


加法法则用来计算两事件并的概率，而乘法法则用来计算两事件交的概率。乘法法则的基础 
是条件概率的定义，利用公式 (4. 7) 和 (4. 8) 解出，我们就可得到乘法法则 ( multiplicationlaw )。 


乘法法则 




P ( AC ] B ) = P ( B ) P ( A \ B ) 

(4.11) 

或 

尸 （Afl = P ( A ) P ( B \ A ) 

(4.12) 


为了说明乘法法则的应用，考虑该 问题： 某报的发行部已经知道在某社区有84%的住户订阅 
了该报纸的日报。我们用来代表事件“住户订阅了日报”， P ( D ) =0.84。另外，还知道已订 
阅了日报的住户订阅其周末刊的概率(事件 S ) 为0.75,即 P ( S \ D ) =0.75。则住户既订阅了日报， 
又订阅周末刊的概率是多少？利用乘法法则，我们可以算出所要的 P ( sn /))， 计算过程为 

P ( SDD ) = P ( D ) P ( S \ D ) =0. 84 x 0. 75=0.63 


现在我们知道有63%的住户既订阅了日报又订阅了周末刊。 

在结束本节之前，我们再来考虑一下涉及到独立事件这一特殊情况的乘法法则。我们已知当 
/ ? (41扪=/ ? (/1)或/ ? (51/1)=户（扪时，事件4和 B 是独立的。因此利用公式 (4. 11) 和 (4.12), 
针对独立事件的特殊情况，我们得到下面的乘法 法则： 
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独 II 事件的乘法法则 




P(AD B ) = P ( A ) P ( B ) 

(4.13) 


为了计算两独立事件交的概率，我们只需把相应的概率相乘即可。注意到独立事件的乘法法 
则提供了确定4和是否独立的另外一种方法，即如果 P ( ADB ) = P { A ) P { B ) 9 那么4和 B 
是独 立的； 如果 P { Af ] B )^ P ( A ) P ( B ) t 那么>1和 B 是相关的。 

作为独立事件乘法法则的一个应用实例，考虑这样一种 情况： 一位加油站经理依据以往的经 
验知道，有80%的顾客在加油时使用信用卡。问接连两名顾客都使用信用卡加油的概率是多少？ 
如果我们令 


4=第一个顾客使用信用卡的 事件； 

B = 第二个顾客使用信用卡的事件。 

那么与问题有关的事件就是在未给出其他信息的情况下，我们能够合理地假定4和是 
独立事件。因此 

P(AD B ) = P { A ) P ( B ) =0. 80 x 0. 80=0.64 

对本节进行总结，我们注 意到： 由于事件往往是相关的，因此我们关心条件概率，并且在计 
算条件概率时必须使用公式 (4.7) 和(4, 8)。如果两个事件不相关的话，则它们是相互独立的，任 
何一个事件都不受另一事件是否发生的影响。 



不要混淆互斥事件和独立事件的概念。两 个发生的话，另外一个事件就不可能发生。因 

个具有非零概率的事件不可能既是互斥的，同 此它们是相关事件。 

时又是互相独立的。如果已知互斥事件中有一 



方法 

30. 假定有两个事件 >1 和 B ， P { A ) = 0. 50, P ( B ) = 0.60, 而 PMnB )=0.40。 

參 a . 计算 PUI B )。 

自测题 

b . 计算 P ( B \ A)o 

c . 4 和相互独立吗？为什么？ 
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a . 构建这些数据的联合概率表。 

b . 利用学校质量、学费/方便性、其他原因的边际概率，对选择学校的首要原因进行 
评论。 

c . 如果某学生选择了全曰制方式，学校质量是择校首要原因的概率是多少？ 

d . 如果某学生选择了非全日制方式，学校质量是择校首要原因的概率是多少？ 

e . 以4代表学生选择全日制的事件，以 B 代表将学校质量作为申请首要原因的事件。 
事件4和 B 相互独立吗？验证你的答案。 

34. 下表显示了 一般人群的血型分布(俄亥俄辛辛那提 Hoxworth 血液中心提 供）： 


- 

自测题 


31. 假定两事件 4 和 B 互斥，再进一步假定我们已知 PM ) = 0.30， 5) = 0. 40。 

a . PMnB ) 是多少？ 

b . 是多少？ 

c . 一名统计学学生争 论说： 互斥事件和独立事件的概念实际上是相同的，如果事件互斥的话， 
那么它们必定是独立的。你赞同这种说法吗？利用本题中的概率信息来验证你的答案。 

d . 根据本题的结果，关于互斥事件和独立事件你能够得到什么样的一般结论？ 

应用 

32. 关于 140 位顾客的年龄和婚姻状况， Daytona Beach 夜总会有如下数据： 

婚姻状况 




单身 

已婚 

年龄 

30岁以下 

77 

14 

30岁或以上 

28 

21 


a . 构建这些数据的联合概率表。 

b . 使用边际概率对夜总会顾客的年龄进行评论。 

c . 使用边际概率对夜总会顾客的婚姻状况进行评论。 

d . 顾客既是单身同时年龄又在 30 岁以下的概率是多少？ 

e . 如果某位顾客在 30 岁以下，则他或她是单身的概率为多少？ 

f . 婚姻状况是否独立于年龄？利用概率进行解释。 

33. 在一项对 MBA 学生的调查中，对于学.生申请学校的首要原因，获得了下列 数据: 


申请的首要原因 



学 校质置 

学费或方便性 

其他 

总计 

全日制 

421 

393 

76 

890 

非全日制 

400 

593 

46 

1 039 

总计 

821 

986 

122 ! 

1 929 


注册状况 
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A 

B 

AB 

O 

Rh + 

34% 

9% 

4% 

38% 

Rh - 

6% 

2 % 

1% 

6% 


a . 某人具有0型血的概率是多少？ 

b . 某人属于 Rh - 的概率是多少？ 

c . 夫妇两人都属于 Rh - 的概率是多少？ 

d . 夫妇两人血型都是 AB 的概率是多少？ 

e . 给定某人血型为0的条件下，他或她属于 Rh - 的概率是多少？ 

f . 给定某人属于 Rh + 的条件下，他或她具有 B 型血的概率是多少？ 

35. “从1950年以来，1月的股市行情简直就是该年股市行情的晴雨表，其准确程度令人吃惊” 

( 1998 Stock Trader’s Almarmc )。 从 1950— 1997的48年间，股市在1月上涨过31次，全年上涨 
过36次，既在1月上涨全年又上涨的有29次。 

a . 估计股市将在1月上涨的概率。 

b . 估计股市将全年上涨的概率。 

c . 给定股市在1月上涨的条件下，它在整个年度上涨的概率是多少？ 

d . 概率值是否表明股市的1月份表现与它的全年表现是相互独立的事件？请解释。 

36. 对四种职业进行了工作满意度 研究： 木工、律师、理疗师和系统分析师。满意度以 0—100 分 
来衡量，该研究得到的数据列示在下面的交叉分组列表中： 

满意度得分 


职业 

50分以下 

50 — 59 

60 — 69 

70 — 79 

80 — 89 

木工 

0 

2 

4 

3 

1 

律师 

6 

2 

1 

1 

0 

理疗师 

0 

5 

2 

1 

2 

系统分析师 

2 

1 

4 

3 

0 


a . 构建联合概率表。 

b . 某位研究对象满意度得分为80多分的概率是多少？ 

c . 给定研究对象为理疗师的条件下，其满意度得分为80多分的概率是多少？ 

d . 某位研究对象的职业为律师的概率是多少？ 

e . 某位研究对象的职业为律师并且其满意度得分在50以下的概率是多少？ 

f . 给定某人为律师的条件下，其满意度得分在50以下的概率是多少？ 

g . 研究对象满意度得分在70或以上的概率是多少？ 

37. 某采购代理向两个供应商 >4和5紧急订购了一批特殊原材料。如果两家供应商的货物均未在 
4曰内到达，厂家将被迫关闭生产线直到货物运达为止。供应商4能够在4日内交货的概率 
是 0.55, 供应商5能够在4日内交货的概率是0.35。 

a . 两家供应商都能够在4曰以内交货的概率是多少？因为涉及到两家无关的厂商，我们假定 
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它们是互相独立的。 

b . 至少有一家供应商在4日以内交货的概率是多少？ 

c . 在4日内由于原材料短缺而要关闭生产线（即两张订单都被延误）的概率是多少？ 

38. 由某机构对 the Future and the Gallup 组织的 1 035 名工作人员所做的调查发现：员工们正在被 
众多的消息淹没 （ TTie Cincinnati Enquirer ，November 2, 1998 )。研究还指出每个员工平均每天收 
到190条消息。下表显示了消息类型的分类 数据： 


消息来源 

每曰消息数置 

消息来源 

每曰消息数量 

电话 

52 

电子邮件 

30 

声音邮件 

22 

部门间邮件 

18 

美国邮政邮件 

18 

传真 

15 

邮政卡 

11 

电话消息纸条 

10 

活页 

4 

晚间急件 

4 

移动电话 

3 

美国快递邮件 

3 


a . 对任一员工而言，下一条消息来自电话的概率是多少？ 

b . 对相邻的两条消息，第一条来自电子邮件而第二条来自传真的概率是多少？ 

c . 下一条消息出自电话或者是部门间邮件的概率是多少？ 


4.5 贝叶斯定理 

在对条件概率的讨论中，我们指出：当我们得到新的信息时，进行概率分析的一个重要方面 
就是 要根据新的信息修正概率。我们往往要先对有关的具体事件进行原始的概率估计或者 说是先 
验概率 (prior probability ) 估计，以此来开始分析工作。然后，我们从一些诸如样品、特殊报告或产 
品检测等信息来源中获取有关该事件的其他信息。给定这些信息以后，我们就可以通过计算把先 
验概率修 正为后验概率 (posterior probabilities ) 。 贝叶斯定理 ( Bayes ’ theorem ) 提供了进行修正概率计 
算的方法，该方法的具体步骤显示在图 4.9 中。 



图 4. 9 利用贝叶斯定理进行概率修正 

作为贝叶斯定理的一个应用例子，让我们考虑某个制造业公司，它从两个不同的供应商那里 
购买零件。令儿代表零件来自供应商1的事件， A 代表零件来自供应商2的事件。目前该公司 
购买的零件有65%来自供应商1,剩下的35%则来自供应商2。因此，若随机地选择零件，我们 
指派的先验概 率为： P ( Ai ) = 0. 65, P ( A ) = 0.35。 
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该公司所采购零件的质量随供应商的不同而变化，两个供应商所提供的零件质量的历史数据 
见表 4. 6。如果我们以 G 来代表零件质量好的事件，以 B 代表零件质量差的事件，表 4.6 的信息 
给出了下面的条件概 率值： 

P ( G \ A X ) =0.98 P ,( B \ A l ) =0.02 

P ( G \ A 2 ) =0.95 P ( B \ A 2 ) =0. 05 

表 4. 6 两供应商的历史质 置水平 



好零件的百分比 

差零件的百分比 

供应商1 

98 

2 

供应商2 

95 

5 


图 4. 10的树形图描述了这个两步骤 试验： 公司首先从两供应商之一处购得零件，然后再检验 
某个零件是好的还是差的。我们看到共有四个可能的试验结果，两个试验结果对应于好零件的情 
况，两个对应于差零件的情况。 

因为每个试验结果都是两事件的交，故我们能够利用乘法法则来计算概率。 例如： 


P ( Aj , G ) = P ( AxCiG ) = PiA ^ PiGlA ^ 



试验结果 
( A \, G ) 
( A U B ) 

( G ) 

(a^b) 


注： 步骤 1 表示零件来自于两供应商之 一； 步骤2表示零件是好的还是差的。 

图 4. 10 两步骤树形图 

我们还能够使用一种被称为概率树(见图 4. 11) 的方法来描述这些联合概率的计算过程。在步 
骤1中每个分支的概率是先验概率，而在步骤2中每个分支的概率是条件概率。为了得到每个试 
验结果的概率值，我们只需把通向各试验结果的那条分支上的两个概率值相乘即可。这些联合概 
率值和每个分支上已知的概率值一起显示在图 4. 11中。 

现在我们假定该公司的生产过程使用两供应商的零件，当机器运转差零件时就会出现故障。 
给定已知零件是差的这样一个信息，那么它来自供应商1的概率是多少?来自供应商2的概率是多 
少？根据概率树提供的信息(见图 4. 11), 我们可以利用贝叶斯定理来回答这个问题。 

令5代表差零件事件，我们要找的是后验概率 P (儿 IB ) 和/>(恚15)。根据条件概率定理， 
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结果的概率值 


PiAiCi G ) = PiA ^ PiGlA ^) =0. 637 0 


P (/ l.n B ) = =0. 013 0 


P { A 2 n G ) = P ( A 2 ) P ( G \ A 2 ) =0. 332 5 


P ( A 2 n B ) = P ( A 2 ) P ( B \ A 2 ) =0. 017 5 


图 4. 11 两供应商例子的概率树 


我们知道 


PiA^B) = 


P ( A l DB ) 

P ( B ) 


(4.14) 


参见概率树，我们看到 

P(AxnB) = P(4i)P(^l A,) 


(4.15) 


为了得到汽幻，我们注意到事件 B 只能以两种途径 发生： （山 HB ) 和 （ AHB )。 因此，我 


们有 


P { B ) = PiArHB ) + P { Aif \ B ) 

= P { A l ) P ( B \ A [ ) + P ( A 2 ) P ( B I Ai ) 


(4.16) 


将公式 (4. 15) 和 (4.16) 代入公式 (4. 14) 中，类似地写出/>(4 2 1扪的结果，我们得到两事件情 
况下的贝叶斯 定理： 


贝时斯定理（两事件犒況） 

P(Ai\B ) = 

p(a 2 \b ) = 


P ( M ) P ( B \ A ,) 


P ( A l ) P ( B \ A l )+ P ( A 2 ) P ( B \ A 2 ) 

P ( A 2) P ( B .\ A 2 ) 

P ( Ai ) P ( B \ Ay )+ P ( A 2 ) P(B \ A 2 ) 


(4.17) 


(4.18) 


我们至今沿用的这一定理源自基督教长老会牧师贝叶斯 (Reverend Thomas Bayes ) 
( 1702 — 1761 ) 的原创性工作。 





利用公式 (4. 17) 和本例的概率值，我们有 
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P{Ai\B ) = 


PiA^PjBU,) 

PiA^PiB \ Ai ) + P ( A 2 ) P ( B \ A 2 ) 


_0. 65 x Q . 02 

"0. 65 x 0. 02 + 0. 35 x 0.05 


0.013 0 = 0.013 0 

0.013 0 + 0.017 5 "0. 030 5 


= 0. 426 2 


另外，利用公式 (4. 18)， 我们可以得到 


P{A 2 \ b) 


0. 35 x Q . 05 0.017 5 

0. 65 x 0. 02 + 0. 35 x 0. 05 0. 013 0 + 0. 017 5 


0.017 5 
~ 0. 030 5 


= 0. 573 8 


注意到在这个例子中，开始时随机选择的零件有 0.65 的概率来自供应商1。但是，给定零件 
为差的信息以后，零件来自供应商1的概率降至 0.426 2。事实上，如果是差零件，那么超过一半 
的可能是它来自供应商2，因为 P (梟 1 B ) =0.573 8。 

当我们想要计算后验概率的事件是互斥的，并且它们的并就是整个样本空间时\就可以应 
用贝叶斯定理。贝叶斯定理还能够扩展到包括 I ，1，…， A 等 n 个互斥事件的情况，这 n 个 
事件的并构成了整个样本空间。在这种情况下，计算任一后验概率 P ( Alfi ) 的贝叶斯定理有下面 
的 形式： 


贝叶斯定理 


P(Ai\B ) = 


_ PjA^PjB \Ai) _ 

PiA^PiB \^)+ P ( A 2 ) P(B I A 2 ) + -+ P ( A n ) P(B \ A n ) 


(4.19) 


如果已知先验概率…， Pd ) 和对应的条件概率儿）， P ( BM 2 )， …， P 
( B \ A n ) 9 那么我们使用公式 （4.19) 就能够计算出事 件儿， 4 2 ,… ，儿 的后验概率。 


表格方法 

使用表格方法有助于贝叶斯定理的计算，表 4.7 显示了对零件供应商问题如何应用表格方 
法。其中的计算过程步骤 如下： 

步骤 1 . 准备下面 三列： 

第1列——需要计算后验概率的互斥事件。 

第2列——事件的先验概率。 

第3列——每个事件在给定新信息以后的条件概率。 

步骤 2. 在第4列利用乘法法则计算每个事件的联合概率，并计算新信息 B 的概率。把第2 
列的先验概率乘以第3列对应的条件概率就能够得到这些联合概率，即 

PiAiHB ) = P(Ad P ( B \ Ai ) 


如果事件的并就是整个样本空间，那么这些事件就被称为是完全的。 
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步骤 3. 对第 4 列的联合概率值求和，其值即为新信息的概率 P ( S) D 我们在表 4.7 中 看到： 
给定供应商为 1 的条件下，差零件概率为 0.013 0; 给定供应商为 2 的条件下，差零 
件的概率为 0.017 5。 因为差零件只有这两个可能的来源，故 0.013 0 + 0. 017 5 的和 
表示从来自两供应商的混合货物中发现差零件的综合概率为 0. 030 5。 

步骤 4. 在第 5 列利用条件概率的基本关系计算后验概率。 

P(A i \B)= E ^y L 

注意联合概率就在第 4 列，而概率是第 4 列的和。 


表 4. 7 两供应商问题的贝叶斯定理计算过程汇总 


(1) 

(2) 

(3) 

(4) 

(5) 

事件 

先验概率 

条件概率 

联合概率 

后验概率 


P ( Ai ) 

P ( B\Ad 

P ( AHB ) 

, P ( AAB ) 

儿 

0. 65 

0. 02 

0.013 0 

0. 013 0/0. 030 5 =0. 426 2 

A 2 

0. 35 

0. 05 

0.017 5 

0. 017 5/0, 030 5=0. 573 8 


1.00 


P ( B ) =0. 030 5 

1.000 0 



1. 贝叶斯定理在决策分析中有广泛的应用。先 
验概率往往由决策者提出，作为对概率的 
主观估计，在获得样本信息以后，再计算 
后验概率以选择最佳决策。 


2. 事件和它的补是互斥事件，并且 它们的 并是 
整个样本空间。因此，贝叶斯定理总是能 
够应用于计算事件和补的后验概率。 



方法 

39. 事件儿和1的先验概 率为： P ( Ai ) = 0.40, P ( A 2 ) = 0.60, 还已知汽凡 nA 2 ) =0, 

假定 儿 ）=0.20 和 =0.05。 

自测题 a . 山和 A 是互斥事件吗？请解释。 
b _ 计算 P (儿 nfi ) 和 PU 2 ns )。 

c . 计算 P ( B ) 0 

d . 应用贝叶斯定理计算 P (儿 Ifi ) 和 P ( A 2 \ B)o 


40. 事件4、企和丄的先验概 率为： P ( A ,) = 0.20, P ( A 2 ) = 0.50, 户(丄）=0.30。给定儿, 
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瓜和扇下事件 B 的条件概 率为： P ( B \ A { ) =0. 50, P (別 A ) =0.40 和 P ( BM 3 ) =0.30。 

a . 计算尸（5门儿），户（5门>1 2 )和尸（5门>1 3 )。 

b . 应用贝叶斯定理公式 (4. 19)，计算后验概率 P ( A 2 \ B)o 

c . 使用贝叶斯定理的表格法，计算 PUIB )， PMdB ) 和 PM 3 IB )。 

应用 

41. 某咨询公司向一个大型研究项目投标，公司管理者最初的感觉是公司有一半的机会拿到这个 
项目。但是接着，招标单位要求该公司提供更多的投标信息。根据以往的经验，有75%的中 
标公司和40%的失败公司被要求提供更多的信息。 

a . 中标的先验概率（即在被要求提供更多信息以前)是多少？ 

b . 给定最终中标的条件下，公司被要求提供更多信息的条件概率是多少？ 

c . 给定公司被要求提供更多信息的条件下，计算中标的后验概率。 

42. 某地方银行对其信用卡政策进行了审查，并考虑收回部分信用卡。在过去大约有5%的 
信用卡持有者不偿还债务从而造成了银行的坏账/因此管理层设定任一信用卡持有者 

自测题 

不偿还债务的先验概率为0.05。银行还进一步发现， 最终. 偿还债务的信用卡客户拖欠 
一个月或几个月支付的概率是 0.20; 当然，那些最终不偿还债务的客户拖欠一到几个 
月的概率为1。 

a . 在给定客户已经拖欠了一个月的条件下，计算其不偿还债务的后验概率。 

b . 如果某客户不偿债的概率超过了 0.20,银行就将收回他的信用卡。问在客户已经拖 
欠了一个月的情况下，银行是否应该收回他的信用卡？为什么？ 

43. 小型轿车油耗省，但安全性不如大型轿车。小型轿车只占上路汽车的18%，但最近一年来涉 
及到小型轿车的事故已经导致了 11 898人丧生供於， May , 2000)。涉及小型轿车 
的事故导致死亡的概率是 0.128, 不涉及小型轿车的事故导致死亡的概率是0.05。假定你正 
在研究造成人员死亡的事故，则该种事故涉及到小型轿车的概率是多少？ 

44. 某市有一支职业篮球队将在主场进行比赛，同天晚上，它的一支职业曲棍球队将到客场比 
赛。这支职业篮球队在主场获胜的概率是0.641，而曲棍球队在客场获胜的概率是0.462。以 
往当两支球队在同一晚比赛时，第二天早上的体育新闻报道篮球队的机会是60%，报道曲棍 
球队的机会是40%。假定比赛后的第二天早上，报纸体育报道的标题是“我们胜利了”，那 
么该报道是关于篮球队的概率为多少？ 

45. M . D , Computing ( May ， 1991) 描述了在医疗诊断中贝叶斯定理和条件概率的应用。疾病的先验 
概率是以医生对诸如地理位置、季节影响和传染病的发生等因素所作的评估为基础的。假定某 
病人被认为具有两种疾病中的一种，它们分别以认和表示，其概率为：汽从）= 0.60, P 
( D 2 ) = 0.40。而该项医学研究的目的是确定伴随疾病的某种症状出现的概率。如果给定疾病 
A 和认，病人出现症状 S ,、 5 2 或5 3 的概率 如下： 
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疾病症状 


疾病 



Si 

Si 

Sz 

D ： 

0. 15 

0. 10 

0. 15 


0.80 

0. 15 

0.03 



P ( S 3 lZ > l ) 


在发现某种症状出现以后，可以通过计算每种特定疾病的修正概率来帮助进行医疗诊断。在 
给定下列医疗检查结果的条件下，计算每种疾病的后验概率。 

a . 病人出现症状 

b . 病人出现症状 S 2 。 

c . 病人出现症状5 3 。 

d . 对于具有症状的病人，假定我们还发现了症状 S 2 , 那么 /), 和 Z ) 2 的修正概率分别是多 
少？ 



在本章我们介绍了基本的概率概念并举例说明了如何利用概率分析来提供对决策有用的信 
息。我们描述了如何把概率解释为是事件发生可能性的数值度量。另外，我们看到既能够通过把 
某个事件所包括的每个试验结果（样本点）的概率求和，又能够利用概率的加法法则、条件概率 
法则和乘法法则所建立的概率关系来计算该事件的概率。在能够取得进一步信息的情况下，我们 
还演示了怎样利用贝叶斯定理来得到修正的或后验的概率。 


水语辞义 


概率： 事件发生可能性的数值度量。 

试验： 能够产生明确结果的过程。 

样本空间： 所有试验结果的集合。 

样 本点： 样本空间的一个元素。一个样本点就表示一个试验结果。 

树 形图： 一种图形表示方法，有助于在一个多步骤试验中确认样本点。 

概率的基本 要求： 有两个要求制约了概率指派 过程： （1) 对每个试验结果及，我们必须有0矣 P 

(^)^1; (2) 对所有的试验结果，我们必须有 P (私） + />(&)+ … + P (幻=1。 

古 典法： 指派概率的一种方法，它的假设前提是所有的试验结果具有相等的发生可能性。 

相对频数 方法： 一种根据试验或历史数据进行概率指派的方法。 

主观 方法： 一种根据主观判断进行概率指派的方法。 

事件： 由若干样本点组成的集合。 

事件 A 的补： 由所有不属于事件4的样本点构成的事件。 

维 恩图： 一种抽象地表示样本空间和事件运算的遠形表示方法。它用矩形代表样本空间，用样本 
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空间内部的圆圈代表事件。 

事件 A 和 B 的并： 包含了属于4或属于 S 或同时属于二者的所有样本点的事件，记作 4 UB 。 

事件 A 和 B 的交： 包含了所有同时属于 4 和 B 的样本点的事件，记作 4HB 。 

加法 法则： 该法则用于计算两事件的并的概率，公式为 P(AU B ) = P ( A ) + P ( B ) - P(AH B) 0 
对于互斥事件，因为 /> Mn ^=0, 该公式可简化为 PMU 5) = PM ) + P ( B )。 

互斥 事件： 没有共同样本点的两个事件，即 忍是 空集/ >(4 HB )=0。 

条件 概率： 在给定其他事件已经发生的情况下某事件发生的概率。在给定 B 事件下4的条件概率 
为： P ( A \ B ) = P ( AnB )/ P ( B) q 
联合 概率： 两个事件同时发生的概率，即两事件交的概率。 

独立 事件： 对于两事件 4 和 B ， 有 PMI 忍） = PM ) 或 P ( BM ) = PU )， 即事件之间没有任何 
相互影响，则称它们为独立事件。 

乘法 法则： 该法则用于计算两事件的交的概率，公式为 尸或尸 

对于独立事件它可以简化为 
先验 概率： 对事件概率的初始估计。 

后验 概率： 根据进一步的信息得到的事件修正概率。 

贝叶斯 定理： 一种用来计算后验概率的方法。 


组合计数法则 

排列计数法则 

利用补来计算概率 

加法法则 

条件概率 


f 妻公 





m 

(N-n)\ 


P(A) =1 - P(A C ) 


P(AUB) = P(/4) + P(B) - P(AC\ B) 


P ( A \ B )= 


p ( ahb ) 

p ( b ) 


(4.1) 

(4.2) 

(4.5) 

(4.6) 

(4.7) 
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p/ PI A \ POl 门 1 

P { B \ A).- Kxr 

(4.8) 

乘法法则 

P(An B ) = P ( B ) P ( A \ B ) 

(4.11) 


P ( ADB ) = P { A ) P ( B \ A ) 

(4.12) 

独立事件的乘法法则 

P ( AHB ) = P ( A ) P ( B ) 

(4.13) 

贝叶斯定理 



P{AA 

n PCA^PiB 1 Ai ) 

P ( A ^) P(B 1 A ,) + P ( A 2 ) P(B I A 2 )+- + P ( A n ) P(B \ A n ) 

(4.19) 


计充炼 


46. 在《商业周刊》 Harris 民意调查中， 1 035 名成年人被问及他们对于商业的态度 （ fiWnew 呢 成 
September 11, 2000) ，其中一个问题是 ：“在 生产好的产品和全球竞争力方面， 你 如何评价大型 
的美国公司？”回 答是： 优秀 一18%， 相当好—— 50% , 一般—— 26%， 差—— 5%， 不 
知道/未回答——1%。 

a . 某人评价美国公司为相当好或优秀的概率是多少？ 

b . 对美国公司评价为差的答案有多少个？ 

c . 不知道或未回答的答案有多少个？ 

47. 某财务经理刚刚进行了两项新投资-项在石油工业，另一项投资于市政债券。在一年以 

后，就能够确定每项投资是成功还是失败。把进行这两项投资视做一个试验。 

a . 该试验存在多少个样本点？ 

b . 作出树形图并列出样本点。 

c . 令0 =投资石油工业成功的事件 ， M = 投资市政债券成功的事件。列出0和 M 内的样本 
点。 

d . 列出事件的并 （ OUM ) 的所有样本点。 

e . 列出事件的交 （ OHM ) 的所有样本点。 

f . 事件0和 M 是互斥的吗？请解释。 

48. —项对美国人的民意调查问道：你对今日美国的经济状况是否感到满意 （ 77 i € Wall Street Jour- 
ruil June 27, 1997) ? 下表列出了所有参与者的答案和年龄组的 分布： 
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满意（％) 

不满意（％) 

其他（％) 

所有参与者 

61 

37 

2 

18 — 34 

64 

35 

1 

• 35 — 49 

58 

41 

1 

50 _ 64 

57 

40 

3 

65 + 

70 

26 

4 


a. 随机选取到的成年人感觉满意的概率是多少？ 

b. 哪一个年龄组的满意水平高于平均水平？ 

c. 65 岁以上的成年人未回答他们是否满意的概率是多少？ 

49 . 由 Paul Weiler 领导的一个哈佛研究小组对纽约州的 31 000 例住院病例进行了研究 （ 

匕 March 27, 1995 )。 他们发现 4% 的住院病人会受到医疗事故的伤害，其中又有 1/7 导致 
了 死亡。 1/4 的医疗事故是由于疏忽引起的。每 7.5 起疏忽案例中只有 1 起被承认是工作失 
误，而只有1/2的工作失误能够向病人赔偿。 

a. 某位住院病人遭受由医务人员疏忽引起的医疗事故伤害的概率是多少？ 

b. 某位住院病人死于医疗事故的概率是多少？ 

c. 在因为疏忽引起医疗事故伤害的情况下，病人的工作失误指控能获得赔偿的概率是多少？ 

50. 利用电话调查来确定观众对某个新电视节目的反映，得到了下列 数据： 


评价 

频数 

差 

4 

低于平均水平 

8 

平均水平 

11 

高于平均水平 

14 

优秀 

13 


a. 随机抽取到的观众对新电视节目评价为平均水平或更好的概率是多少？ 

b. 随机抽取到的观众对新电视节目评价为低于平均水平或更差的概率是多少？ 

51. 《商业周刊》对其消费者进行了一项关于他们拥有或者租赁的汽车数目的调查。消费者需要回 
答三个 问题： 你拥有几辆汽车？你租赁几辆汽车？你有（拥有或者租赁）几辆汽车？表 4.8 包 
括了从 932 户家庭取得的回答 （Business Week 1996 Worldwide Subscriber Study) 。 在对该表解释 
时，我们注意到第 3 行表明有 401 户家庭拥有 2 辆汽车， 47 户家庭租赁 2 辆汽车， 447 户家 
庭有(拥有或/和租赁 )2 辆汽车。 

a. 家庭租赁一辆汽车的概率是多少？ 

b. 家庭拥有 2 辆或更少汽车的概率是多少？ 

c. 家庭有 3 辆或更多汽车的概率是多少？ 

d . 家庭既未拥有也未租赁汽车的概率是多少？ 
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表 4. 8每个家庭拥有或租赁的汽车数以及有的汽车总数 


家庭户数 

汽车数 

拥有 

租赁 

有 

0 

65 

708 

19 

1 

242 

168 

168 

2 

401 

47 

447 

3 

149 

9 

186 

4 或以上 

75 

_0 

112 


总计 932 

932 

932 


52. 毕业生管理委员会对 MBA 注册新生的调查提供了以下 2 018 名学生的 数据: 


申请学校是否 
超过一个 



是 

否 

23 及以下 

207 

201 

24—26 

299 

379 


年龄分组 

27—30 

185 

268 

31 — 35 

66 

193 


36 及以上 

51 

169 


a . 随机选择一名 MBA 学生，进行观察该生的年龄和申请学校数目的试验，作出联合概率表。 

b . 随机选择到的申请者年龄在23岁或以下的概率是多少？ 

c . 随机选择?彳的申请者年龄大于26岁的概率是多少？ 

d . 随机选择到的申请者申请学校超过一所的概率是多少？ 

53. 仍参见上题的新生调查数据。 

a . 给定某学生申请学校超过一所的条件下，该生年龄在24—26岁的概率是多少？ 

b . 给定某学生在36岁及以上年龄组的条件下，该生申请学校超过一所的概率是多少？ 

c . 某学生年龄在24 — 26岁之间或者申请学校超过一所的概率是多少？ 

d . 假定已知某学生只申请了一所学校，该生年龄在31岁及以上的概率是多少？ 

e . 申请学校的数目与年龄独立吗？请解释。 

54. —项 IBD / TIPP 民意调查是为了 了解人们对于投资和退休的态度 （/ m ; e 伽 May 
5, 2000) o 向男性和女性受调查者询问的一个问题 是：“ 在选择退休投资时，你们认为风险水平 
的重要性如何?”下面的联合概率表是根据收集到的数据作出的，其中的重要是指调查对象的 
回答是重要或非常重要。 

a . 调查对象认为风险水平重要的概率是多少？ 

b . 男性调查对象认为风险水平重要的概率是多少？ 

c . 女性调查对象认为风险水平重要的概車是多少？ 
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d. 风险水平是否独立于被调查者的性别？为什么？ 

e. 男性和女性对待风险的态度是否相同？ 



男性 

女性 

总计 

重要 


0.22 

0. 27 

0.49 

不簞要 


0. 28 

0. 23 

0.51 

总计 

0. 50 

0. 50 

1.00 


55. 某大型消费品公司正在运作一个关于一种自产肥皂产品的电视广告项目，为此进行了一项调 
查。在该调查的基础上，对下面的事件指派了 概率： 

= 消费者购买了 产品； 

S = 消费者能够回忆起 广告； 

fin s = 消费者购买了产品且能够回忆起广告。 

对它们指派的概率为: P ( B ) =0.20, P ( S ) =0. 40, P(BHS) =0.12 。 

a. 在给定消费者能够回忆起广告的条件下，他购买产品的概率是多少？消费者看过广告是否 
能够增加其购买产品的概率？假如你是决策者，你是否建议继续播放广告(假定广告费用 
是合理的）？ 

b. 假设未购买该公司肥皂产品的消费者从它的竞争对手那里购买产品，你对公司市场份额的 
估计是多少？你认为继续播放广告能够增加公司的市场份额吗？为什么？ 

c. 公司还检查了另一个广告，并对它指派概率 值为： P(S) =0.30 且尸 (BHS) =0.10 。 该广 
告的户(別5)是多少？看起来哪一个广告对消费者的影响更大？ 

56. Cooper Realty 公司是一家位于纽约阿尔巴尼的小型房地产公司，主要进行居民住宅的销售。最 
近，这家公司想要确定在某特定时间段内一座居民住宅被售出的可能性。通过对去年公司销 
售的 800 座住宅进行分析，得到以下 数据： 


销售时间 


/ 

30天以下 

31—90 

90天以上 

总计 

50 000美元以下 

50 

40 

10 

100 

| 50 000~>99 999美元 

20 

150 

80 

250 

100 000— 150 000美元 

20 

280 

100 

400 

150 000美元以上 

10 

30 

10 

50 

总计 

100 

500 

200 

800 


a. 如果定义 4 是销售时间超过 90 天的事件，估计 4 的概率。 

b. 如果定义 B 是初始价格低于 50000 美元的事件，估计 B 的概率。 

c. AD B 的概率是多少？ 

d. 假定已经确定要出售一座初始价格低于 50 000 美元的住宅，则该公司在超过 90 天的时间 
才能将其售出的概率是多少？ 

e. 事件4和 B 独立吗？ 
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57. 某公司对它设在得克萨斯州 Brownsville 的一个工厂的误工事件进行了研究。历史记录表明在 
去年有6%的员工发生过误工事件，管理人员相信，实行某项特殊的保障措施将会把今年的误 
工事件减少到5%。此外，据估计在去年发生误工事件的员工中有15%在今年还会发生类似 
事件。 

a . 有多大百分比的员工在去年和今年都发生了误工事件？ 

b . 有多大百分比的员工在去年和今年至少发生过一次误工事件？ 

58. 达拉斯的 IRS 审计人员正在关注如何确定可能的退税诈骗行为。根据过去的经验他们发现，如 
果一项退税项目中包含的特别税折扣超过了 IRS 标准，则存在退税诈骗行为的概率为 0.20; 如 
果未超过 IRS 标准，则存在退税诈骗行为的概率为0.02。假定共有8%的案例的特别税折扣 
超过了 IRS 标准，估计退税诈骗行为的百分比是多少？ 

59. 某石油公司购买了一块阿拉斯加的土地开采权，经初步的地质研究指派先验概率 如下： 

P (含高质量石油）= 0. 50 
汽含中等质量石油）= 0. 20 
P (不含石油）= 0. 30 

a . 在这块土地上发现石油的概率是多少？ 

b . 在第一口井钻至200英尺深时，进行了土壤测试。在测试中发现特殊土壤类型的概率 如下： 

P (该土壤类型丨含高质量石油 ）=0, 20 
P (该土壤类型 I 含中等质量石油 ）=0.80 
P (该土壤类型丨不含石油 ）=0.20 

该公司将如何解释土壤测试的结果？修正概率分别是多少？发现石油的新概率是多少？ 

60. 贝叶斯方法可以用来计算某勘探地点出产石油的修正概率 （ OiZ & Gtw Journal , January 11, 
1988) o 在一个例子中，地质评估显示某地出产石油的概率为25%。并且在给定该地点出产石 
油的条件下，某个钻井能够勘探到石油的机会是80%。 

a . 假设在该地点钻探了一口井后未发现石油，则该地点出产石油的概率是多少？ 

b . 如果两口油井都没有发现石油，则该地点出产石油的概率是多少？ 

c . 如果石油公司坚持只要出产石油的概率大于1%就会继续钻探，问至少要钻探多少口没有 
石油的丼后，才会放弃这一地点？ 


案例研究 HAMILTON 县的法官 

Hamilton 县的法官每年要处理几千个案件。对于绝大多数的案件，其裁决不会改动。但是也 
有一些案件提出上诉，并且确实有一些上诉案件的裁决被推翻。《辛辛那提调査》 

的 Kristen DelGuzzi 对 Hamilton 县的法官在1994年一 1996年中处理的案件进行了研究 
(The Cincinnati Enquirer ，January 11, 1998) 。表 4. 9 显示了由普通诉讼庭、民事庭和地方庭的38位 
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法官处理过的182 908个案件的结果。有两位法官 （ Dinkelacker 和 Hogan ) 三年来从未在同一法庭 
共过事。 

该报纸的研究目的是评估法官们的表现。上诉往往是法官错误判决的结果，而该报想要知道 
的是哪些法官工作得更好，哪些法官常犯错误。在该案例中，要求你帮助分析数据，并利用你学 
过的概率和条件概率知识帮助对法官进行评定。你还需要分析在不同法庭处理过的案件被上诉和 
推翻原判的可能性。 

表 4. 9 Hamilton 县法庭在1994一1996年期间处理的全部案件和被上诉、推翻的案件 



CD 光盘数据 
Judge 


普通诉讼庭 


法官 

处理案件的总数 

被上诉的案件数 

被推翻的案件数 

Fred Cartolano 

3 037 

137 

12 

Thomas Crush 

3 372 

119 

10 

Patrick Dinkelacker 

1258 

44 

8 

Timothy Hogan 

1 954 

60 

7 

Robert Kraft 

3 138 

127 

7 

William Mathews 

2 264 

91 

18 

William Morrissey 

3 032 

121 

22 

Norbert Nadel 

2 959 

131 

20 

Arthur Ney, Jr. 

3 219 

125 

14 

Richard Niehaus 

3 353 

137 

16 

Thomas Nurre 

3 000 

121 

6 

John 0 ’ Connor 

2 969 

129 

12 

Robert Ruehlman 

3 205 

145 

18 

J. Howard Sundermann 

955 

60 

10 

Ann Marie Tracey 

3 141 

127 

13 

Ralph Winkler 

3 089 

88 

6 

总计 

43 945 

1762 
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民事庭 



法官 

处理案件的总数 

被上诉的案件数 

被推翻的案件数 

Penelope Cunningham 

2 729 

7 

1 

Patrick Dinkelacker 

6 001 

19 

4 

Deborah Gaines 

8 799 

48 

9 

Ronald Panioto 

12 970 

32 

J 

总计 

30 499 

106 

17 
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(续表) 


地方庭 


法官 

处理案件的总数 

被上诉的案件数 

被推翻的案件数 

Mike Allen 

6 149 

43 

4 

Nadine Allen 

7 812 

34 

6 

Timothy Black 

7 954 

41 

6 

David Davis 

7 736 

43 

5 

Leslie Isaiah Gaines 

5 282 

35 

13 

Karla Grady 

5 253 

6 

0 

Deidra Hair 

2 532 

5 

0 

Dennis Helmick 

7 900 

29 

5 

Timothy Hogan 

2 308 

13 

2 

James Patrick Kenney 

2 798 

6 

1 

Joseph Luebbers 

4 698 

25 

8 

William Mallory 

8 277 

38 

9 

Melba Marsh 

8 219 

34 

7 

Beth Mattingly 

2 971 

13 

1 

Albert Mestemaker 

4 975 

28 

9 

Mark Painter 

2 239 

7 

3 

Jack Rosen 

7 790 

41 

13 

Mark Schweikert 

5 403 

33 

6 

David Stockdale 

5 371 

22 

4 

John A. West 

2 797 

4 

2 

总计 

108 464 

500 

104 


管理报告 

准备一份评定法官的报告，包括对在三个法庭处理过的案件被上诉和推翻原判可能性的分 
析。你的报告最少应包括以下 内容： 

1. 三个法庭处理过的案件被上诉和推翻原判的概率。 

2. 每个法官处理过的案件被上诉的概率。 

3. 每个法官处理过的案件被推翻的概率。 

4. 排列每个法庭法官的名次，写出你使用的标准并说明你选择该标准的理由。 


离散概率分布 


统计实例.•花旗银行 
5.1 随机变董 

离散随机变量 
连续随机变量 
5.2 离散概率分布 
5.3 数学期望和方差 
数学期望 
方差 

5.4 二项概率分布 

二项试验 

马丁服装商店问题 
使用二项概率表 
二项概率分布的数学期望和方差 
5. 5 泊松概率分布 

一个涉及时间间隔的例子 
一个涉及长度或距离间隔的例子 
5. 6 起几何概率分布 
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花旗银行* 

长岛，纽约州 


花旗银行作为花旗集团的一部分，提供范围广泛 
的金融服务，包括支票和储蓄账户、贷款和抵押、保 
险以及投资服务，所有这一切都处于一个被称为 
“Citibanking” 的一体化战略框架之内。 Citibanking 
在全世界树立了一个始终如一的商标标识、一贯的产 
品供应以及高质量的客户服务。无论何时、何地，花 
旗银行都使人们能够以其选择的任何方式管理自己的 
金钱。不管是需要为了明天而储蓄，还是需要为了今 
天而借贷，都能在花旗银行得以实现。 

位于花旗卡业务中心 (CBCs) 的花旗4艮行业务 
自动处理机 （ATMs ) ,使顾客每周7天、每天2 4 小 
时地在一个地方仅仅依靠自己手指的操作，就能够 
完成他们所有的银行业务，从储蓄到管理投资在内 
的超过150种不同的银行业务都能够方便地进行。 
花旗银行业务自动处理机远多于现在顾客所使用的 
自动提款机，而这些自动提款机经手的业务已占了 
顾客所有交易的80%。 

每一个花旗银行的 CBC 对于随机地到达其任何 
一台 ATM 接受服务的顾客，运行了一个排队系统。 
如果所有的 ATM 都有人在使用，到达的顾客将排队 
等候。 CBC 容量的时间段研究被用来分析顾客的等 
待时间和确定是否需要增加 ATM。 

花旗银行收集的数据显示，随机到达的顾客遵 
循泊松概率分布。利用该分布，花旗银行能够计算 
在任何时间段内到达 CBC 的不同顾客数的概率，并 

* 作者感谢花旗银行的 Stacey Karter 先生提供了该统计 

实例。 


在本章我们将继续研究概率问题，对随机3 
概率分布，共包括三种不同的离散概率分布形5 
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5.1 随机变量 

\ 

在第4章，我们定义了试验和试验结果的概念。随机变量则提供了一种用数值来描述试验结 
果的方法。 


随机变量必须用数值表示。 


随机变通 

随机变量是对试验结果的数值性描述。 


实际上，随机变量把数值与每个可能的试验结果联系起来，随机变量的取值依赖于试验结 
果。根据用来表示随机变量的数值特征，它可被分为离 散随机变量和连续随机变量 两类。 

离散随机变量 

使用有限个数值或者是像0, 1，2,……这样存在间隔的无穷数列表示的随机变量被称为离 
散随机变量 (discrete random variable )。 例如，考虑一名会计参加注册会计师 ( CPA ) 考试的试验。 
该考试有四门内容，我们能够定义随机变 量为： ％ =通过 CPA 考试的门数。因为它是用有限个数 
值： 0, 1，2, 3, 4来表示的，所以属于离散随机变量。 

再举一个离散随机变量的例子，考虑到达收费站的汽车数试验。有关的随机变量是％ = —天 
内到达收费站的汽车数，％的可能值是整数0，1，2,……的无穷数列。因此， x 属于离散随机变量。 

尽管许多试验结果可以自然而然地用数值表示，但有一些则不行。例如，某项调査要求调査 
对象回忆在最近的电视广告中出现的内容。该试验有两个可能的 结果： 调查对象回忆不起来和调 
査对象能够回忆起来。我们可以人为地规定离散 变量％如下： 如果调查对象不能回忆则令 ； c = 0, 
如果调查对象能够回忆则令 ； c = l ， 这样我们就仍然可以使用数值来描述该试验的结果。该随机变 
量的数值是任意规定的（我们也可以使用5和 10), 但按照随机变量的定义，它们也是可接受的—— 
因为 x 给出了对试验结果的数值描述，所以它就是随机变量。 

表 5.1 列出了一些离散随机变量的例子。注意在每个例子中，离散随机变量都使用了有限个数 
值或像0, 1，2,……这样的无穷数列来表示。我们将在本章详细地讨论诸如此类的随机变量。 


表 5. 1离散随机变置的例子 


试验 

随机变置（ X ) 

随机变置的可能值 

接触5位顾客 

下订单的顾客数 

0, 1， 2, 3, 4, 5 

检査一批50只收音机 

次品收音机的数目 

0，1, 2，…，49, 50 

某饭店一天的经营情况 

顾客数 

0, 1， 2， 3，… 

销售一部汽车 

顾客的性别 

男性为 0, 女性为 1 
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连续随机变量 

可以用一个区间或区间集合内的任何数值表示的随机变量被称为 连续随机变量 (continuous 
random variable )。 我们能够使用连续随机变量来描述建立在时间、重量、距离和温度等的度量值 
之上的试验结果。例如，考虑对打进某大型保险公司理赔办公室的电话进行监控这个试验。假定 
有关的随机变 量为： ％ =连续两个电话的间隔分钟数，该随机变量可以取区间0矣; c 矣90内的任何 
值。实际上，^可能取的值是无穷个，包括像 1.26 分钟、 2.751 分钟和 4. 333 3分钟这样的数 
值。再举一个例子，佐治亚州亚特兰大以北有一段90英里长的州际公路1-75。对于一个位于亚 
特兰大的事故救护机构而言，我们可以定义随机变 量为： ： c = 在 1-75 的该路段发生的下一起交 
通事故的位置。在本例中，％是一个连续随机变量，可以取区间内的任何值。表 5.2 列出了一些 
连续随机变量的例子。注意在每个例子中所描述的随机变量都可以取区间内的任何值。连续随机 
变量和它们的概率分布是第6章的主要内容。 


表 5. 2 连续随机变量的例子 


试验 

随机变置（ X ) 

随机变量的可能值 

经营银行 

两顾客到达时间间隔的分钟数 

x^O 

填充饮料罐 

饮料罐的盎司数 

0 矣欠 <12. 1 

(最大 = 12. 1盡司） 



建设新图书馆项目 

项目在6个月以后完工的百分比 

0矣 ^^100 

测试一个新化工工艺 

所需要的反应发生温度 

150^^^212 


(最低 150° F , 最髙 212° F ) 




确定随机变量是离散还是连续的一个方法 条线段也代表随机变量的值，那么该随机变量 

是： 把随机变量的值当做线段上的点，选择两 就是连续的。 

个点代表随机变量的两个值。如果两点间的整 



方法 

L __ 考虑抛掷硬币两次的试验。 

a . 列⑽ 有试验结果。 
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b . 定义在两次抛掷中表示正面出现次数的随机变量。 

c . 对每个试验结果，列出随机变量的取值。 

d . 该随机变量是连续的还是离散的？ 

2. 考虑某工人加工产品并记录花费时间的试验。 

a . 定义表示加工产品所需时间的随机变量。 

b . 随机变量可以取的值是多少？ 

c . 该随机变量是离散的还是连续的？ 

应 用 

3. 三个学生为了暑假在 Brookwood 学院工作而被安排进行面试。面试结果是录用或不录 
喔=》用，试验结果就以三个人的面试结果来定义。 

自测题 

a . 列出试验结果。 

b . 定义表示录用人数的随机变量。它是离散的还是连续的？ 

c . 列出每个试验结果的随机变量值。 

4. 假定我们知道12家佛罗里达信贷机构的住房抵押贷款利率，设有关的随机变量是在这些机构 
中30年固定利率为 8. 5%或以下的机构数目。该随机变量可以取的值是多少？ 

5. 为进行某种血液分析，实验员必须执行两道工序。第一道工序需要1或2个单独的步骤，第二 
道工序需要1，2或3个单独的步骤。 

a . 列出与血液分析相关的试验结果。 

b . 如果有关的随机变量是完成分析（全部工序）所需的总步骤数，列出每个试验结果对应的随 
机变量值。 

6. 下表是一系列试验与相关的随机变量，确认每个例子中随机变量的可能值并说明该随机变量是 
离散的还是连续的。 


试验 

a . 答一份包括20道问题的试卷 

b . 观察在1小时内到达收费站的汽车 

c . 审计 50 例税款返还 

d . 观察一个雇员的工作 

e . 称一批货物的重量 


随机变量 （ X ) 

答对的问题数 
到达收费站的汽车数 
错误的返还案例数 
8小时工作日内的非生产时间 
重量的镑数 


5.2 离散概率分布 


随机变量的概率分布 (probability distribution ) 描述了随机变量取不同值的概率。对于禽散随机 
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变量: C , 其概率分 布由概率函数 (probability function ) 来定义，用/(^)表示。概率函数提供了随机 
变量取每个值时的概率。 

作为离散随机变量及其概率分布的例子，考虑纽约萨拉托加 DiCario 汽车公司的汽车销售数 
量。在过去300个营业日中，有54天销量为0, 117天销量为1辆，72天为2辆，42天为3辆， 
12天为4辆，3天为5辆。假定我们选择该公司一天的营业情况作为试验，定义有关的随机变量 
戈=一天内售出的汽车数。根据历史数据，我们知道 x 是离散随机变量，可取的值为： 0, 1，2, 
3, 4, 5。在概率函数的符号中，/(0)表示销量为0的概率，/( I )表示销量为1的概率，依此类 
推。因为历史数据显示300天中有54天销量为0,我们把数值54/300 = 0. 18分配给/(0)，表 
示一天内销售0辆汽车的概率是0.18。类似地，因为300天中有117天销量为1，我们把数值 
117/300 = 0.39 分配给/( I )，表示一天内销售1辆汽车的概率是0.39。继续使用这种方法求得随 
机变量的其他值，可得出/(2)、/(3)、 （4) 和/(5)的值，表明 DiCarlo 汽车公司一天内汽车的销 
量，列在表 5.3 中。 


表 5. 3 Dicarlo 汽车公司每天内汽车销置的概率分布 


X 


fix) 

0 


0. 18 

1 


0.39 

2 


0. 24 

3 


0. 14 

4 


0. 04 

5 


0.01 


总计 

1.00 


定义随机变量及其概率分布的主要好处在于，一旦知道了概率分布，对于各种事件有兴趣的 
决策者要确定事件的发生概率就相对简单了。例如，利用表 5.3 的 DiCarlo 汽车公司的概率分布， 
我们看到在1天内最可能的汽车销售数是1辆，其概率为/(1)= 0.39。另外，1天内销售3辆或 
以上汽车的概率是/(3) +/(4) +/(5) =0. 14 +0.04 + 0. 01 =0. 19。这些概率加上决策者关心的其 
他因素，提供了有助于决策者了解该公司汽车销售情况的信息。 

在得出任一离散随机变量的概率函数的过程中，必须满足以下两个 条件： 


离敗概率函数的要求条件 


f ( x )^0 

(5.1) 

' Zf ( x ) - 1 

(5.2) 


这些条件与第 4 章中对试验结果的两条基本要求相似。 


表 5. 3显示出随机变量； c 的概率满足公式 (5. 1)，即对； c 的所有值，都大于或等于0。另外， 
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全部概率之和为1，故满足公式(5.2)。因此， DiCarlo 汽车公司的概率函数是有效的离散概率函 
数。 

我们还可以用图形来表示概率分布。在图 5.1 中， DiCarlo 汽车公司随机变量； c 的值在横轴上 
表示，与 x 值对应的概率值则在纵轴上表示。 


fix ) 



图 5. 1 DiCarlo 汽车公司一天汽车销量的概率分布的图形表示 


除了表格和图形以外，利用公式也能够对 x 的每个值给出概率函数/(幻，所以往往利用公式 
来描述概率分布。以公式表示的离散概率函数的最简单例子 是离散均匀概率分布 (discrete uniform 
probability distribution )。它的概率函数如下所示： 


离散均习概率函数 


/( x ) = 1/ n 

式中 n ——随机变量所有可能值的数目 

(5.3) 


举例说明该函数，考虑投掷色子的试验，定义随机变量 x 为朝上一面的点数。随机变量有 
n = 6 个可能值，分别为1，2, 3, 4, 5, 6。因此该随机变量的概率函数是 


/( %) =1 / 6 x = \ 9 2, 3, 4, 5, 6 
随机变量的可能取值与对应的概率值列表 如下： 


x 

1 

2 

3 

4 

5 

6 


fix ) 

1/6 

1/6 

1/6 

1/6 

1/6 

1/6 
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注意在本例中随机变量取每个值的可能性相等。 

再举一个例子，设某随机变量； c 具有如下的离散概率 分布: 

X fix) 

1 1/10 

2 2/10 

3 3/10 

4 4/10 

该概率分布可由公式表示为 


f ( x ) =合，^ = 1, 2, 3, 4 

这样，给出随机变量的值就能够得到对应的概率值 / U )。 例如，对于上面的概率函数，我们看 
到： /(2) =2/ 10得出了随机变量取2时的概率。 

由公式表示的离散概率分布通常应用更为广泛。三种最重要的离散概率分布公式是二项分 
布、泊松分布和超几何分布，我们将在本章的后面讨论它们。 



方法 

7. 随机变量 x 的概率分布列示如下 
齡二: 

自测题 X 

20 
25 
30 
35 

a . 它是适当的概率分布吗？ 

b . ^=30的概率是多少？ 

c . x ^ 25 的概率是多少？ 

d . ^>30的概率是多少？ 


fix) 

0. 20 
0. 15 
0. 25 
0.40 

总计 1.00 
检查它是否满足公式 （5.1) 和 （5.2) 。 


应用 

S . _ 以下数据是 Tampa 总医院在20天的期间内每天使用手术室的 数目： 有3天使用1 
间，有5天使用2间，有8天使用3间，有4天医院的4间手术室全部都在使用。 
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a . 利用相对频数方法对任意一天使用手术室的数目建立概率分布。 

b . 画出概率分布图。 

c . 证实你的概率分布是否满足离散概率分布的条件。 


9. 以下数据显示了联邦政府中5个行政级别各自的雇员数 （Pay Structure of the Federal Civil Ser ¬ 
vice , U . S . Office of Personnel Management , 1996) : 


行政级别 
1 
2 

3 

4 

5 


雇员数 

15 

32 

84 

300 

31 

总计 462 


假设我们为了调查雇员的工作条件而在各行政级别选择雇员作为样本，以随机变量 z 表示随机 
选择到的雇员的行政级别。 

a . 使用数据建立^的概率分布。标明随机变量的取值及对应的概率函数的值。 

b . 画出概率分布图。 

c . 证实概率分布是否满足公式 (5.1) 和公式(5.2)。 

10. 表 5.4 显示了 一个信息系统 ( IS ) 的高级执行经理和中级经理工作满意度得分的百分比频数分 
布 （ Computerworld 9 May 26, 1997 )。分数从最低的1分（非常不满意）到最高的5分(非常满意）。 

a . 建立高级执行经理工作满意度分数的概率分布。 

b . 建立中级经理工作满意度分数的概率分布。 

c . 高级执行经理报告的工作满意度分数为4或5的概率是多少？ 

d . 中级经理非常满意的概率是多少？ 

e . 比较两种职位的工作满意度。 


表 5. 4 信息系统的高级执行经理和中级经理工作满意度得分的百分比频数分布 


工作满意度 

高级执行经理的 

中级经理的 

分数 

百分比 (％) 

百分比（％ ) 

1 

5 

4 

2 

9 

10 

3 

3 

12 

4 

42 

46 

5 

41 

28 


总计 100 

100 


11. 一位技师负责为菲尼克斯地区的公司邮购机器提供售后服务。根据故障的类型，服务电话会 
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用去1, 2, 3或4个小时。设不同类型的故障发生频率相同。 

a . 建立一个服务电话占用时间的概率分布。 

b . 画出概率分布图。 

c . 证实你的概率分布是否满足离散概率分布的条件。 

d . 服务电话占用3个小时的概率是多少？ 

e . 有个服务电话已经打进，但故障类型未知。现在是下午3:00,服务技师通常在下午5:00 
下班，那么他今天超时工作修理机器的概率是多少？ 

11 Lakeville 社区学院的招生主任客观地估计出入学人数； c 的概率分布 如下： 


1 000 
1 100 
1 200 
1300 
1400 

a . 这是有效的概率分布吗？ 

b . 入学人数是1200或以下的概率是多少？ 

13. 某心理医生已经确定要获得一名新病人的信任需要 1, 2 或 3 个小时。以随机变量 x 表示获得 
病人信任所需的小时数，他提出了以下的概率 函数： 

/(欠)二戈=1, 2或3 

a . 这是一个概率函数吗？请解释。 

b . 取得病人信任恰好花费2小时的概率是多少？ * 

c . 取得病人信任至少花费2小时的概率是多少？ 

14 . 下表为 MRA 公司营业第一年计划利润（无=以千美元计的利润）的概率分布的一部分（负值 
代表亏损）。 


X 

fix) 

100 

0. 10 

0 

0.20 

50 

0. 30 

100 

0. 25 

150 

0. 10 

200 



a . /(200) 的值是多少？你对该值如何解释？ 

b . MRA 公司盈利的概率是多少？ 

c . MRA 公司至少盈利10万美元的概率是多少？ 


fix) 
0. 15 
0.20 
0. 30 
0. 25 
0. 10 
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5.3 数学期望和方差 
数学期望 


随机变量的数 学期望 (expected value )， 或者说是均值，是对随机变量中心位置的度量。离散 
随机变量； c 的数学期望的数学表达式 如下： 


离敗随机变讎的数学期望 




E ( jc ) = /Lt = Z xf ( x ) 

(5.4) 


数学期望是随机变量可取值的加杈平均值，其权重就是概率。 


符号和 g 都用来表示随机变量的数学期望。 

公式 （5.4) 表明： 为了计算离散随机变量的数学期望，我们必须把随机变量的每个值乘以相 
对应的概率 /( jc )， 并且将所得乘积相加。仍使用 5.2 节的 DiCarlo 汽车公司为例，在表 5. 5中我 
们说明了怎样计算一天内汽车销量的数学期望。这一列之和表示销量的数学期望为每天 1.50 辆汽 
车。因此我们了 解到： 尽管一天的销量可能是0, 1，2, 3, 4或5辆，但 DiCarlo 公司仍可预期平 
均每天售出 1.50 辆汽车。设每月营业30天，我们可用数学期望 1.50 来预测每月的平均销量为 
30 x 1.50 = 45辆汽车。 

表 5. 5 DiCarlo 汽车公司一天内汽车销置的数学期望计算过程 


X 

fix) 

xf(x) 

0 

0. 18 

0x0. 18 = 0.00 

1 

0.39 

1 x 0. 39 = 0. 39 

2 

0.24 

2x0.24 = 0.48 

3 

0. 14 

3x0.14 = 0. 42 

4 

0. 04 

4x0.04 = 0. 16 

5 

0. 01 

5 xO.Ol = 0.05 



1.50 


E{x) = |4= z xf{x) 
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方差 


尽管数学期望提供了随机变量的平均值，但我们还经常需要度量它的变异程度，或分散程 
度。正如我们在第3章中使用方差来概括数据的变异程度一样，现在我们使用方差 ( variance ) 来概 
括随机变量的变异程度。离散随机变量方差的数学表达式 如下： 


离散随机变麗的方差 




Var ( x ) = a 2 =^ J (x - fi ) 2 f ( x ) 

(5.5) 


正如公式 （5.5) 所示，方差公式的基本部分是离差 x - Ai ， 它度量的是随机变量的某个特定 
值与数学期望或均值 / x 的距离。在计算随机变量的方差时，先将离差平方，再用对应的概率函数 
值加权，随机变量所有值的加权平方离差之和就被称为方差。符号 VarU ) 和沪都 表示随机变量 
的方差。 


方差是随机变量与其均值的离差平方的加权平均值，概率就是权重。 


表 5. 6汇总了计算 DiCarlo 汽车公司一天内汽车销量的概率分布方差的计算过程，我们看到方 
差的计算结果是1.25。我们还定义 标准差 (standard deviation ) a 是方差的正平方根。因此，一天汽 
车销量的标准差为 


cr = vT 725 - 1. 118 


标准差的单位与随机变量的单位相同 （a = 1.118 辆汽车），因此被更经常地用作对随机变量变 
异程度的描述。而方差 a 2 的单位也是平方项，因此较难以解释。 

表 5.6 DiCarlo 汽车公司一天内汽车销置的概率分布方差计算过程 


X 

x - 


(x -fi ) 2 

f(x) 

U-/t)7U) 

0 

0-1.50 = 

-1.50 

2.25 

0. 18 

2. 25(0, 18) =0.405 0 

1 

1-1.50 = 

-0.50 

0. 25 

0. 39 

0, 25(0. 39) =0. 097 5 

2 

2-1.50 = 

0.50 

0. 25 

0. 24 

0. 25(0.24) =0.060 0 

3 

3-1.50 = 

1.50 

2. 25 

0. 14 

2. 25(0.14) =0.315 0 

4 

4-1.50 = 

2. 50 

6. 25 

0.04 

6. 25(0.04) =0. 250 0 

5 

5 — 1 • 50 = 

3.50 

12. 25 

0.01 

12. 25(0.01) =0.122 5 


1.250 0 



O - 2 = Z ( - m) 2 /( x ) 
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方法 

15. 下表是随机变量％的概率 分布: 


JC 


fix ) 

3 


0.25 

6 


0.50 

9 


0.25 


总计 

1.00 

a . 计算％的数学期望 E ( x ) 0 


b . 计算％的方差 cr 2 。 

C. 计算 X 的标准差 O '。 



16. 下表是随机变量 y 

的概率分布： 


自测题 

y 

2 

/( y ) 

0.20 


4 

0.30 


7 

0. 40 


8 

0. 10 


总计 

1.00 

a. 计算 £( y )。 

b . 计算 Var ( y ) 和 

(To 



应用 

17. —个志愿救护服务机构每天都要接0到5个服务电话，服务电话数的概率分布 如下: 


服务电话数 概率 

0 0 . 10 

1 0. 15 

2 0. 30 

3 0.20 

4 0. 15 

5 0. 10 


a. 服务电话数的数学期望是多少? 
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b . 服务电话数的方差是多少？ 

18. 《1997年美国统计摘要》显示，每户家庭平均拥有 2.3 台电视。假设下表是新奥尔良地 

区每户家庭拥有电视台数的概率 分布： 

自测题 

x fix) 

0 0.01 

1 0.23 

2 0.41 

3 0. 20 

4 0. 10 

5 0. 05 


a . 计算该地区每户家庭电视拥有量的数学期望，并与《1997年美国统计摘要》报道的平 
均拥有量比较。 

b . 该地区每户电视拥有量的方差和标准差分别是多少？ 

19. 四支篮球队的实际投篮记录显示，投中2分球的概率是0.50，而投中3分球的概率是0.39。 

a . 这些球队2分球得分的数学期望是多少？ 

b . 这些球队3分球得分的数学期望是多少？ 

c . 既然投中2分球的概率大于投中3分球的概率，教练为何还在有机会时要求队员投3分 
球？使用数学期望进行解释。 

20. 牛顿汽车保险公司关于撞车保险的伤害赔付金额的概率分布如下表 所示： 


赔付金额（美元） 

概率 

0 

0.90 

400 

0.04 

1000 

0. 03 

2 000 

0.01 

赔付金额（美元） 

概率 

4 000 

0.01 

6 000 

0.01 


a . 利用撞车赔付金额的数学期望来确定使公司保本的撞车保险收费额。 

b . 保险公司对撞车保险的收费为每年260美元。保险客户的撞车保险单的数学期望是多少？ 
(提 示： 它等于从保险公司得到的期望赔付减去保险费用。）为什么客户会购买具有这一 
数学期望的撞车事故保险单？ 

21. 以下是一个信息系统高级执行经理和中级经理样本的工作满意度分数的概率分布 
( Computerworld , May 26, 1997) ，分数范围从最低的1分(非常不满意）到最高的5分(非常满意）。 



第 5 章离散概率分布205 


概率 


工作满意度 

高级执行经理 

中级经理 

1 

0.05 

0.04 

2 

0. 09 

0. 10 

3 

0. 03 

0. 12 

4 

0.42 

0.46 

5 

0.41 

0. 28 


总计 1.00 

1.00 


a . 高级执行经理工作满意度分数的数学期望是多少？ 

b . 中级经理工作满意度分数的数学期望是多少？ ' 

c . 计算高级执行经理和中级经理工作满意度分数的方差。 

d . 计算两者的工作满意度概率分布的标准差。 

e . 比较高级执行经理和中级经理整体的工作满意度。 

22. 各个月份对 Carolina 工业公司的产品需求有很大不同，下表的概率分布建立在过去两年的数据 
基础之上，显示了对公司产品的月需求量。 


番求置 

概率 

300 

0. 20 

400 

0.30 

500 

0. 35 

600 

0. 15 


a . 如果公司的每月订单数是根据月需求量来制定的，那么该公司的每月订单数是多少？ 

b . 假如每单位的需求量产生70美元收入，而每单位的订购成本为50美元。如果订购量就是 
你在 ( a ) 中的答案，并且实际的需求量为300单位时，该公司这个月的盈利或亏损是多少？ 

23. 根据调查， Wall Street Journal Interactive Edition 的订户中有95%的家庭拥有个人电脑。下 
表列出了这些家庭的笔记本电脑和台式电脑数目的概率分布 （ Wall Street Journal Interactive 
Edition Subscriber Study 9 1999) Q 


概率 


电脑数目 

笔记本 

台式机 

0 

0. 47 

0,06 

1 

0.45 

0. 56 

2 

0.06 

0. 28 

3 

0. 02 

0. 10 


a . 每户家庭拥有每种类型电脑数目的数学期望分别是多少？ 

b . 每户家庭拥有每种类型电脑数目的方差分别是多少？ 

c . 对订户拥有的笔记本和台式机数目进行比较。 
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24. J . R . Ryland 计算机公司正在考虑一项厂房扩建计划，以生产一种新的计算机产品。公司总裁 
必须决定扩建项目是中型还是大型的，但又无法确定对新产品的需求量。需求量的预测可能 
为低、中或高，对应的概率估计为0.20、 0.50 和0.30。令％代表以千美元计的年度利润，公 
司规划者已经作出了中型和大型扩建项目的利润预测。 


中型扩建项目的利润 大型扩建项目的利润 




X 

fix) 

y 

f ( y ) 


低 

50 

0. 20 

0 

0. 20 

需求 

中 

150 

0.50 

100 

0. 50 


髙 

200 

0. 30 

300 

0.30 


a . 计算两种扩建方案利润的数学期望，哪个方案对实现期望利润最大化的目标更优？ 

b . 计算两种扩建方案利润的方差，哪个方案对实现风险或不确定性最小化的目标更优? 


5.4 二项概率分布 

二项概率分布是一种应用广泛的离散概率分布，它与一个被称为二项试验的多步骤试验有 
关。 


二项试验 

一个二 项试验 (binomial experiment ) 具有以下四个性质： 

二顶试验的牲质 

1. 二项试验是把相同的单次试验进行了 n 次所形成的一个序列。 

2. 每一次单次试验都有两种可能的结果。我们把其中一个称为成功，另一个称为失败。 

3. 单次试验的成功概率用 p 表示，它在各次试验中都相同。因此，单次试验的失败概率用 
1 - p 表示，它在各次试验中也都相同。 

4. 每一次的单次试验都独立进行。 


如果出现性质2、3和4的话，我们就说试验是由柏努利过程产生的。另外，如果性质1也出 
现的话，我们就称其 为二项试验。 图 5. 2描述了一个包括8次试验的二项试验及一个可能的结果 
序列。在这个例子中，有5次成功和3次失败。 


贾克伯•柏努利 (Jakob Bernoulli ) (1654 ― 1705)，是瑞士数学家家族柏努利家族的第 
一代。他曾经发表过关于概率的论文，包括排列和组合理论，以及二项式定理。 
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性质 1: 试验由 n = 8 次相同的试验构成。 

性质 2: 每次试验的结果是成功 （ S) 或失败 （ F )。 


试验 - ► 1 2 3 4 5 6 7 8 

结果 - ► SFFSSFSS 

图 5. 2 — 个包括 8 次试验的二项试验图 

在一个二项试验中，我们关心的是在 n 次试验中出现成功的次数。 如果以％表示 n 次试验中 
成功的次数，我们看到； c 可取的值为0, 1，2, 3,…， n 。 因为值的个数是有限的，故； c 是离散 
随机变量。与该随机变量有关的概率分布被称为 二项概率分布 (binomial probability distribution ) 0 
例如，对于拋掷 5 次硬币的试验，每次都观察在硬币着地时是正面朝上还是反面朝上。假定我们 
关心的是5次拋掷中正面朝上的次数，该试验具备二项试验的性质吗？有关的随机变量是什么？ 
我们注 意到： 

1. 该试验由5次相同的试验构成，每次试验就是抛一枚硬币。 

2. 每次试验都有两个可能的 结果： 正面或反面。我们可以指定正面为成功，反面为失败。 

3. 每次试验正面出现的概率都是相同的， 为 P = 0.5 ; 每次试验反面出现的概率也是相同 
的，为 1 - />= 0.5。 

4. 因为任意一次试验的结果都不影响其他试验，所以各次试验或拋掷都是独立的。_ 

因此，该试验满足二项试验所有的性质。有关的随机变 量是： = 在5次试验中出现正面的 
次数，本例中，％可取的值为0, 1，2, 3, 4或5。 

再举一个例子，一个保险推销员随机地选择10户家庭进行访问。定义每次访问的结果 为：如 
果该家庭购买了保险单则为成功，如果该家庭未购买则为失败。推销员根据以往的经验，知道随 
机选择的家庭购买保险单的概率为0.10。与二项试验的性质相对照，我们观 察到： 

1. 该试验包括10次相同的试验，每次试验为访问一户家庭。 

2. 每次试验都有两个结果是可 能的： 家庭购买保单（成功）和家庭未购买保单(失败）。 

3. 每次推销中购买和未购买的概率都相同，分 别为： p =0. 10和1-/>=0.90。 

4. 因为每户家庭都是随机选择的，故各次试验相互独立。 

由于满足了四个假设，所以该例子也是一个二项试验，有关的随机变量是10户家庭中购买保 
单的户数。本例中％可取的值为： 0, 1, 2, 3, 4, 5, 6, 7, 8, 9，10。 

二项试验的性质3称为 稳定性假设， 有时会与性质4——试验的独立性相混淆。为了分辨它们 
的区别，再次考虑上面的保险推销员例子。如果随着时间的推移，推销员感觉到疲劳并失去了热 
情，例如，到第10次访问时，成功（售出保单）的概率降到了 0.05。.在这种情况下，就不能满足 
性质3 (稳定性），也就构不成二项试验。即使性质4——每户家庭购买保单的决定是独立的—— 
满足时也是如此。 

在涉及二项试验的应用中，有一个特殊的数学公式- 二项概率函数 (binomial probability 
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function ) ,可用来计算在〃次试验中有％次成功的概率。利用第4章介绍的概率概念，我们将演 
示如何在一个实际问题中建立这个公式。 

马丁 装商店问题 

让我们考虑3个接连进入马丁服装商店的顾客的购买决定。根据过去的经验，商店经理估计 
任意一个顾客购买商品的概率为 0. 30。那么3个顾客中有两个会购买的概率是多少？ 

利用树形图（图 5.3) ，我们可以 看到： 对3名顾客进行观察的试验有8个可能的结果。 令 S 
代表成功(购买）， F 代表失败(未购买），我们想知道的是在3次试验(决定是否购买）中包含2次 
成功的试验结果。下一步，我们来证实这个包括3次购买决策的试验是一个二项试验。与二项试 
验的四条要求相对照，我们注 意到： 

1. 该试验可被描述为一个包括三次相同试验的序列，三个进店顾客中的每一个即为一次试 

验 。 

2. ' 两个结果——顾客购买(成功)和顾客未购买(失败)对每次试验都是可能的。 

3. 顾客购买商品的概率 (0. 30) 和顾客未购买商品的概率 (0. 70) 被设定为对所有顾客都是相同 
的。 

4. 每个顾客的购买决定都独立于其他顾客的购买决定。 


因此，该试验满足二项试验的性质。 

在 n 次试验中恰有％次成功的试验结果个数能够通过下面的公式计算， 



现在让我们回到涉及3位顾客的购买决定的马丁服装商店试验。可以使用公式 (5. 6) 确定包含 
两次购买决定的试验结果个数，即在 3次试验中获得2次成功的方法数。由公式 (5. 6)， 
我们有 


_ /3\ 3! ,3 x 2 x 1 _ 6 

U '\2^2!(3-2)! "2 xlxi _ 2 一 3 

公式 (5. 6) 的结果表明有3个试验结果包含了两次成功，从图 5. 3中我们看到这3个结果被表示为 
SSF 、 奶和 FSS 。 


* 该公式曾在第4章介绍过，以确定在 n 个项目中一次抽取％个的组合数。对于二项试验，该组合公式给出了包含$次成 
功的试验结果(在〃次试验的序列中）的数目。 
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第1位顾客 


第2位顾客 


第3位顾客 


S =购买 
F =未购买 
x =购买商品的顾客数 



结果 

(S，S，S) 
(S，S，F) 

(s ， F ， S) 

(S, F , F) 
(F，S，S) 
(F f 5, F) 
(F ， F ， S) 
(F, F 9 F) 


x 的值 
3 

2 

2 


2 

1 


0 


图 5. 3 马丁服装商店问题的树形图 


再次利用公式 (5. 6) 来确定在3次试验中包含3次成功（购买）的试验结果个数，我们得到 



3! 二3!二 3 x 2 x 1 
3!(3-3)! — 3!0! " 3 x 2 x 1 xl 


+ 1 


从图 5. 3中我们看到有1个试验结果包含3次成功，它被表示为 SSS 0 

我们知道能够用公式 (5. 6) 确定包含 x 次成功的试验结果个数，但是，如果我们想要确定在 n 
次试验中包含； c 次成功的概率，还必须要知道每个试验结果的概率。因为二项试验中的每次试验 
都是独立的，我们只需把每个单次试验结果的概率相乘，就能够找到包括一系列成功和失败的二 
项试验结果的概率。 

前两位顾客购买而第三位顾客未购买的概率可由以下公式 得出： 

pp(l - p ) 


因为在任何一次试验中购买的概率都是0.30,所以上面问题的计算结果是 


0. 30 x 0. 30 x 0. 70= 0. 30 2 x 0. 70=0. 063 

还有两个结果包含2次成功和1次失败。所有这三个包括2次成功的试验结果概率都列示在 
下表中： 
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单次试验结果 


试验结果 


试验结果的概率 


第1位顾客 

第2位顾客 

第3位顾客 

表示符号 




购买 

购买 

未购买 

SSF 

pp(i - P ) 

= p 2 (l - p ) =0. 30 2 x 0. 70 : 

= 0.063 

购买 

未购买 

购买 

SFS 

p(l - p)p 

= p 2 (l - p ) =0‘ 30 2 x 0. 70: 

= 0.063 

未购买 

购买 

购买 

FSS 

(1 - p)pp 

= j? 2 (l - p ) =0. 30 2 x 0. 70 ： 

= 0. 063 


观察这三个包含2次成功的试验结果，它们都具有完全相同的发生 概率， 并且这一观察结果 
具有一般性。对于任何二项试验，所有在 n 次试验中取得 x 次成功的试验结果都具有相同的发生 
概率，其概率值 如下： 


, 一个在 n 次试验中包含 x 次成功的特定试验 

结果序列出现的概率 (5.7) ^ 

对于马丁服装商店，该公式表明任何一个包含2次成功的试验结果具有概率为 

p 2 (l - p) {3 ~ 2) = p 2 (l -/>)* = (0. 30) 2 (0. 70) 1 =0. 063 

公式 (5.6) 给出了在二项试验中恰有％次成功的试验结果个数，公式 (5.7) 则给出了每个包含 
x 次成功的试验结果的发生概率，我们把这两个公式结合起来，得到了下面的二项概率函数： 

二顶概率函数 

f ( x ) = ^ p x (l - p ) (n ~ x) (5. 8) 

式中 fix ) ——在 n 次试验，中取得 x 次成功的 概率； 

n ——试验的次数； 

I _ Tl\ ' 

\rc/ x\(n^x)\ 9 

p ——单次试验成功的 概率； 

(1 - p ) ——单次试验失败的概率。 


在马丁服装商店问题中，我们来计算没有顾客购买的概率、恰有1位顾客购买的概率、恰有 
2位顾客购买的概率以及3位顾客全都购买的概率。其计算过程汇总在表 5.7 内，该表还显示了 
购买商品的顾客数的概率分布。图 5. 4是概率分布图。 

二项概率函数适用于任何二项试验。如果我们认为某试验具有二项试验的全部性质，并且知 
道 n 、 p 和 （1- p ) 的值，就能够使用公式 （5.8) 来计算在 n 次试验中取得％次成功的概率。 
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表 5. 7购买商品的顾客数的概率分布 


X 


f(x) 


0 

3! 

X 0. 30° X 0. 70 3 = 

0. 343 

0!3! 

1 

3! 

x 0. 30 l x 0. 70 2 = 

0. 441 

1!2! 

2 

3! 

2!1! 

x 0. 30 2 x 0. 70 1 = 

0. 189 

3 

3! 

x 0. 30 3 x 0. 70° = 

0. 027 

3!0! 



1.000 


JU) 

0.50 - 


概 

率 


0.40 - 

0.30 - 


0. 20 

0. 10 

0.00 


0 12 3 

购买商品的顾客数 

图 5. 4 马丁服装商店问题的概率分布图形 


用现有的计算方法制这样的表几乎是不可能的，公式 (5. 8) 的值可以很容易直接估计出。 


让我们再考虑对马丁试验作一些变化，比如有10位顾客而不是3位进入商店，二项概率函数 
公式 （5.8) 仍然适用。假定我们有二项试验的 n = 10, x = 4, p = 0. 30,则进入商店的10位顾 
客中恰有4人购买的概率为 


/(4)= 


101 

4!6! 


x 0. 30 4 x 0. 70 6 = 0. 200 1 
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使用二项概率表 

人们已经用表格形式给出了在一个由 n 次试验构成的二项试验中取得； c 次成功的概率，该表 
格易于使用且比公式 (5. 8) 更快捷。书后附录 B 的表5就是二项概率表，表 5. 8给出了这个概率 

表的一部分。为使用此表，我们必须确定二项试验的 n 、 p 和％的值。在表 5. 8上面的例子中， 
我们看到在 /i = 10，/?=(). 40时，二项试验取得3次成功的概率为0.215 0。如果你直接使用二项 
概率函数计算的话，会得到与査表同样的答案。 

现在我们使用表 5. 8来证实在马丁服装商店问题中10次试验恰有4次成功的概率。我们注意 


到对于 n = 10， 4且 p = 0.30 的二项试验，能够从二项概率表中直接读出概率 值为： /(4)= 

0. 200 1 o 


表 5. 8 


n 



10 



从二项概率表选择数值的 例子 ： /I = 10, =3, p =0. 40, /(3)=0. 215 0 

一 P 


X 

.05 

.10 

.15 

.20 

.25 

.30 

.35 

.40 

.45 

.50 

0 

• 630 2 

,387 4 

.2316 

. 134 2 

.075 1 

.040 4 

.020 7 

• 0101 

.004 6 

.002 0 

1 

.298 5 

.387 4 

• 367 9 

.302 0 

.225 3 

,155 6 

. 100 4 

.060 5 

.033 9 

• 017 6 

2 

• 062 9 

. 172 2 

.259 7 

• 302 0 

• 300 3 

.266 8 

.216 2 

• 161 2 

. 111 0 

.070 3 

3 

.007 7 

.044 6 

. 106 9 

. 176 2 

• 233 6 

.266 8 

.2716 

.250 8 

.211 9 

• 164 1 

4 

.000 6 

.007 4 

.028 3 

.066 1 

• 116 8 

. 171 5 

.219 4 

.250 8 

.260 0 

.246 1 

5 

.000 0 

.000 8 

.005 0 

.016 5 

.038 9 

.073 5 

. 118 1 

. 167 2 

• 212 8 

.246 1 

6 

.000 0 

.0001 

.000 6 

,002 8 

.008 7 

.021 0 

.042 4 

. 074 3 

. 1160 

. 164 1 

7 

• 000 0 

.000 0 

.000 0 

.000 3 

.001 2 

.003 9 

.009 8 

.021 2 

.040 7 

,070 3 

8 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 4 

.001 3 

.003 5 

.008 3 

.017 6 

9 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 1 

.000 3 

.000 8 

,002 0 

0 

.598 7 

• 348 7 

. 196 9 

. 107 4 

.056 3 

.028 2 

.013 5 

.006 0 

.002 5 

• 001 0 

1 

.315 1 

.387 4 

.347 4 

.268 4 

. 187 7 

. 121 1 

.072 5 

.040 3 

.020 7 

.009 8 

2 

.074 6 

. 193 7 

.275 9 

.302 0 

• 281 6 

.233 5 

. 175 7 

. 120 9 

• 076 3 

.043 9 

3 

.010 5 

.057 4 

. 129 8 

• 201 3 

.250 3 

.266 8 

.252 2 

• 215 0 

. 166 5 

. 117 2 

4 

.001 0 

.011 2 

.040 1 

.088 1 

. 146 0 

.2001 

. 237 7 

.250 8 

.238 4 

.205 1 

5 

.0001 

,001 5 

.008 5 

.026 4 

.058 4 

. 102 9 

,153 6 

.200 7 

.234 0 

.246 1 

6 

.000 0 

.0001 

,001 2 

.005 5 

.016 2 

,036 8 

.068 9 

. 111 5 

. 159 6 

,205 1 

7 

.000 0 

.000 0 

.000 1 

.000 8 

.003 1 

.009 0 

.021 2 

,042 5 

.074 6 

. 117 2 

8 

.⑻0 0 

.000 0 

. 000 0 

.0001 

.000 4 

.0014 

.004 3 

• 010 6 

.022 9 

.043 9 

9 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,0001 

.000 5 

.001 6 

.004 2 

.009 8 

10 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

' ■ 000 0 

.000 1 

.000 3 

• 001 0 


尽管二项概率表相对容易使用，但不可能把二项试验中所有71和 p 的值都列出来。不过，使 
用现在的计算器根据公式 (5. 8) 计算想要的概率并不困难，尤其是在试验的次数不很多时。在练 
习中，你应该尽量练习使用公式 (5. 8) 来计算二项概率，除非题中特别要求你使用二项概率表。 

像 Minitab 这样的统计软件包和像 Excel 这样的电子表格软件也有计算二项概率的功能。再来 
考虑马丁服装商店的例子，其中的 7 i =10， p =0.30。 图 5. 5显示了由 Minitab 生成的 x 取所有可 
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能值时的二项概率。注意这些值与表 5.8 中 0.30 列的数值相同。在附录 5.1 中将演示如何利 
用 Minitab 产生图 5. 5的结果，附录 5. 2描述了怎样利用 Excel 来计算二项概率。 


X 

P ( X = x ) 


0.00 

0.0282 


1.00 

0.1211 


2.00 

0.2335 


3.00 

0.2668 


4.00 

0.2001 


5.00 

0.1029 


6.00 

0.0368 


7.00 

0.0090 


8.00 

0.0014 


9.00 

0.0001 


10.00 

0.0000 


图 5. 5 显示马丁服装商店问题二项概率的 Minitab 输出结果 


二项概率分布的数学期望和方差 



在 5. 3节，我们给出了计算离散随机变量的数学期望和方差的公式。在特定的情况下，随机 

变量可能具有二项概率分布，并且其试验次数已知为 / z ， 成功概率已知为 p 时， 

计算数学期望和 

方差的通用公式就可以简化为 



二顶概率分疖的数学期望和方差 



E ( x ) = 

JA/ — Tip 

(5.9) 

Var ( x ) = a 2 

= np(l - p) 

(5.10) 


对于有3位顾客的马丁服装商店问题，我们能够应用公式 (5.9) 计算购买商品顾客数的数学 
期望为 


E ( x ) = 叩= 3 x 0. 30 = 0. 9 

假设下个月马丁服装商店预计有1 000个顾客会进入商店，那么购买商品顾客的期望数目是 
多少？答案是 叩=1 000 x 0.3 =300。于是，为了增加销售的期望值，马丁服装商店必须吸引 
更多的顾客进入商店，和/或设法增加进店顾客购买商品的概率。对于有3位顾客的马丁服装商 
店问题，我们看到购物顾客数的方差和标准差分别为 

a 2 = np(l - p ) = 3 x 0. 3 x 0. 7 = 0. 63 
cr = VO . 63 = 0. 79 
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np 图和批次抽样验收作为质量管理的方法，都是二项概率分布应用的极好例子。 
这些方法将在第20 章： 质量管理统计方法中进行讨论。 


在下个月，有1000位顾客进入商店，则购物顾客数的方差和标准差分别为 

cr 2 = np(l - p ) =1 000 x 0.3 x 0.7=210 
cr = V 210 = 14. 49 



1. 附录 B 的二项概率表只给出 p 小于等于 
0.50 的值，似乎当成功的概率 p 大于 0.50 
时我们就无法使用该表。然而，注意到 n_x 
次失败的概率也就是 x 次成功的概率，我们 
仍然能够使用该表 o 这样当成功的概率 p 
超过 0.50 时，可转而计算次失败的 
概率。这时失败的概率 l _ p 将小于0.50。 

2. 某些二项概率表给出的是累积形式。在使用 


这种表时，必须做减法以得到 n 次试验中 
恰有 x 次成功的概率。例如，对于/(2)= 
p ( x ^2) - p ( x ^ l ) ,我们的表格直接提供 
的是概率。为了利用该表格计算累积概 
率，只需把单个概率值相加即可。例如， 
使用我们的表格计算时，应该用 
式子/(0) + /(1) + /(2)。 



方法 

25. 考虑一个由两次试验构成的二项试验 ， p = 0. 4 0 

■二， a . 画出树形图以显示出它是一个包括2次试验的二项试验(参见图5.3)。 

自测题 

b . 计算1次成功的概率/( I )。 

c . 计算/(0)。 

d . 计算/(2)。 

e . 计算至少1次成功的概率。 

f . 计算它的数学期望、方差和标准差。 
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26. 某二项试验的 /i = 10, p =0. 10。 

a . 计算/(0)。 

b. 计算 /(2 )。 

c. 计算 P ( x ^2) 0 

d . 计算 P ( x ^ l)o 

e . 计算 £； U )。 

f. 计算 Var(x) 和 cr 。 

27. 某二项试验的 M =20, p =0.70。 使用二项概率表（附录 B 的表 5) 来回答从 ( a ) 到 （ d) 的问题。 

a. 计算 /(12 )。 

b. 计算 /(16 )。 

c. 计算 P { x ^\6 )o 

d. 计算 P ( x ^ l 5) 0 

e . 计算五 U )。 

f . 计算 Var ( x ) 和 （7。 

应 用 

28. 由 American Savings Education Council, the Employee Benefit Research Institute 和 Mathew Green- 
wald&Associates 三家机构发起进行了 1999 年青年和金钱调查。通过与1 000名年龄在16— 
22岁的学生谈论他们的个人财务情况，调查发现33%的学生拥有自己的信用卡。 

a . 在包括6名学生的样本中，有2人拥有自己信用卡的概率是多少？ 

b . 在包括6名学生的样本中，至少有2人拥有自己信用卡的概率是多少？ 

c. 在包括10名学生的样本中，无人拥有自己信用卡的概率是多少？ 

29. 根据《商业周刊》 Harris 民意测验对1 035名成年人所做的调查，有40%的被调查者强烈赞同 
商业对美国人生活影响过大的看法 （ ITeefc , September 11， 2000) 。假定该百分比代表 
了美国人的总体比例，我们从美国人总体的横截面中选取20人作为样本，了解他们对商业在 
生活中所起作用的看法。这些人中至少有5人认为商业对美国人生活影响过大的概率是多少？ 

30. 当一台新机器正常运转时，其生产的产品中只有3%是次品。假定随机抽取机器的两 
件产品，我们关心的是发现的次品数目。 

a . 描述该情况符合二项试验需满足的条件。 

b . 画出类似图 5.3 的树形图，以显示出该问题是一个包括2次试验的二项试验。 

c . 有多少个试验结果为恰好发现1件次品？ 

d. 计算没有发现次品、恰好发现 1 件次品和恰好发现 2 件次品的概率。 

31. 5% 的美国卡车司机是女性 （ Statistical Abstract of the United States, 1997) 。假设随机选取 了 10名 
卡车司机，就工作环境的质量问题访问他们。 
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a . 选取10名司机是不是一个二项试验？请解释。 

b . 抽到2名女司机的概率是多少？ 

c . 没有抽到女司机的概率是多少？ 

d . 至少抽到1位女司机的概率是多少？ 

32. 军事雷达和导弹探测系统的设计目的是在敌人攻击时向国家发出警报。它们的可靠性问题是 
指探测系统是否能够识别攻击并发出警报。假设某个探测系统能探测到导弹攻击的概率为 
0.90。利用二项概率分布回答下列 问题： 

a . 一个单独的探测系统能够探测到攻击的概率是多少？ 

b . 如果在同一区域安装了两套探测系统，每一套都独立运转。至少有1套系统探测到攻击的 
概率是多少？ 

c . 如果安装3套系统，至少有1套系统探测到攻击的概率是多少？ 

d . 你建议使用多套系统吗？请解释。 


33. 50%的中型制造商计划利用北美自由贸易协定创造机会，派管理代表访问加拿大和墨西哥 

(Grant Thornton Survey of American Manufacturers ， 1995 )。位于加拿大多伦多的一家进出 口集团 
邀请美国20家中型制造商参加一个开发贸易机会的会议。 

a . 有12家或更多公司会派出代表的概率是多少？ 

b . 不超过5家公司派出代表的概率是多少？ 

c . 你预期有多少家公司会派出代表？ 

d . 派出代表的公司数的方差和标准差是多少？ . 

34. 40%的商务旅行者随身携带移动电话或笔记本电脑 （ TWay ， September 12, 2000) 。在一 
个由15名商务旅行者构成的样 本中： 

a . 有3人携带移动电话或笔记本电脑的概率是多少？ 

b . 有12人既未携带移动电话也未携带笔记本电脑的概率是多少？ 

c . 至少3人携带移动电话或笔记本电脑的概率是多少？ 

35. 某大学发现有20%的学生没有完成基础统计学课程。假定本学期共有20名学生注册了这门课 
程。 

a . 有2人或以下的学生放弃该课程的概率是多少？ 

b . 恰有4名学生放弃的概率是多少？ 

c . 超过3人放弃课程的概率是多少？ 

_ • 

d . 放弃人数的期望值是多少？ 

36. 对于二项随机变量的特殊例子，我们发现其方差可用如下公式沪= 叩 (1-/0 进行计算。使用 
表 5.7 马丁服装商店问题的数据，我们发现^=叩(1-;>)=0.63。利用离散随机变量方差的 
通用定义公式 （5.5) 以及表 5.7 的数据，证实其方差的确是0.63。 

37. 目前有29% 的律师和法官是女性 （ Statistical Abstract of the United States, 1997) 。在一个由 30 名 
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法官和律师组成的法律小组中，女性人数的期望值是多少？方差和标准差是多少？ 


5.5 泊松概率分布 

这一节我们将学习一种在估计特定时间或空间段内事件的发生次数方面十分有用的离散随机 
变量。例如，有关的随机变量可以是在一小时内到达汽车清洗站的汽车数，在10英里长的公路上 
需要修理的汽车数，或者在100英里长的管道上的泄露点个数。如果满足以下两个性质，则事件 
发生的次数就是一个可用 泊松概率分布 (poisson probability distribution ) 来描述的随机变量 o 


泊松分布经常被用来建立在排队情况下到达率的模型。 


汨松试验的牲质 

1. 事件在任意两个等长度的区间内发生一次的概率相等。 

2. 事件在任意区间内是否发生和在其他区间的发生情况相互独立。 

泊松概率函数 (P 

oisson probability function ) 由公式 (5.11) 给出： 


汨松概率函数 





(5.11) 

式中 f ( x ) 

-事件在一个区间内发生 x 次的 概率； 



在一个区间内事件发生次数的平均值或数学 期望； 


e 

- 2. 718 28。 



西蒙 • 泊松 （ Sim 6 on Poisson ) 于 1802—1808年在巴黎的 Ecole Polytechnique 教授数 

学，1837年，它发表了题目是《对于刑事和民事裁决概率问题的研究》的文章。该文 
包括了对后来成为泊松分布的问题所做的讨论。 


在我们用一个具体例子演示怎样应用泊松分布以前，注意发生次数 x 是没有上限的，它是离 
散随机变量，其值可取无穷数列（％ = 0, 1，2,…）。 

一个涉及时间间隔的例子 

假设我们想知道的是在周日早上15分钟内到达某银行出纳窗口的汽车数。如果我们能够假定 
在任意两个等长的时间段内汽车到达的概率相同，且在任意时段汽车到达与否和其他时段汽车到 
达与否相互独立的话，就可以应用泊松概率函数。假设这些条件都满足，对历史数据的分析表 
明，在15分钟内平均的到达车辆数为10。该情况下，适用如下的概率 函数： 
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贝尔实验室在建立打入电话的模型方面，已经对泊松分布有了实质性的应用。 


这里的随机变量％ =在任意 15 分钟内到达的汽车数。 

如果管理者想要知道在 15 分钟内恰有 5 辆到达的概率，我们令 x =5 然后得到 

15 分钟内恰有 5 辆到达的概率 =/(5) ^ 5°； € ° =0- 037 8 

尽管通过计算 从 =10 和％= 5 的概率函数可以确定这一概率，但查泊松概率分布表会更容易些。 
这些表给出了 ^和 m 取各个值时的概率，我们在附录 B 的表 7 包括了这样一张表。为方便起见， 
我们在表 5. 9 复制了该表的一部分。我们注意到为使用泊松概率表，仅需要知道 x 和 g 的值即 


表 5. 9 从泊松概率表选择数值的 例子 ： /i = 10, jc = 5, /(5) =0. 037 8 


X 

9.1 

9.2 

9.3 

9.4 

9.5 

9.6 

9.7 

9.8 

9.8 

10 

0 

.000 1 

.000 1 

.000 1 

.000 1 

■ 000 1 

.000 1 

.000 1 

• 000 1 

.000 1 

.000 0 

1 

.0010 

.000 9 

.000 9 

.000 8 

.000 7 

.000 7 

• 000 6 

.000 5 

.000 5 

.000 5 

2 

.004 6 

.004 3 

• 004 0 

.003 7 

.003 4 

.003 1 

.002 9 

.002 7 

. 002 5 1 

. 002 3 

3 

• 014 0 

.013 1 

• 012 3 

.011 5 

.010 7 

• 010 0 

.009 3 

,008 7 

.008 1 

.007 6 

4 

.031 9 

.030 2 

.028 5 

.026 9 

• 025 4 

.024 0 

.022 6 

.021 3 

.020 1 

.018 9 

5 

.058 1 

.055 5 

.053 0 

• 050 6 

• 048 3 

.046 0 

.043 9 

.041 8 

.039 8 

.037 8 

6 

,088 1 

• 085 1 

• 082 2 

.079 3 

,076 4 

.073 6 

.070 9 

• 068 2 

.065 6 

.063 1 

7 

. 114 5 

.Ill 8 

. 109 1 

. 106 4 

. 103 7 

. 101 0 

■ 098 2 

• 095 5 

.092 8 

,0901 

8 

.130 2 

. 128 6 

. 126 9 

. 125 1 

. 123 2 

• 121 2 

. 119 1 

. 117 0 

. 1148 

. 1126 

9 

.1317 

. 1315 

• 131 1 

. 130 6 

. 130 0 

. 129 3 

. 128 4 

. 127 4 

. 126 3 

• 125 1 

10 

. 1198 

. 121 0 

• 121 9 

. 122 8 

. 123 5 

. 124 1 

. 124 5 

. 124 9 

. 125 0 

. 125 1 

11 

.099 1 

. 1012 

. 103 1 

. 104 9 

. 106 7 

. 108 3 

.109 8 

• 111 2 

. 1125 

. 113 7 

12 

.075 2 

.077 6 

.079 9 

.082 2 

• 084 4 

.086 6 

.088 8 

.090 8 

.092 8 

.094 8 

13 

.052 6 

.054 9 

.057 2 

.059 4 

.061 7 

.064 0 

.066 2 

.068 5 

.070 7 

.072 9 

14 

.034 2 

.036 1 

.038 0 

• 039 9 

.041 9 

.043 9 

.045 9 

.047 9 

,050 0 

.052 1 

15 

.020 8 

.0221 

• 023 5 

• 025 0 

.026 5 

.028 1 

• 029 7 

.031 3 

.033 0 

.034 7 

16 

.011 8 

.012 7 

,013 7 

• 014 7 

.015 7 

.016 8 

• 018 0 

.019 2 

• 020 4 

.021 7 

17 

.006 3 

.006 9 

.007 5 

.008 1 

.008 8 

.009 5 

.010 3 

.011 1 

• Oil 9 

.012 8 

18 

.003 2 

.003 5 

.003 9 

.004 2 

.004 6 

,005 1 

.005 5 

.006 0 

.006 5 

.007 1 

19 

.001 5 

,0017 

.001 9 

• 0021 

,002 3 

.002 6 

.002 8 

.003 1 

.003 4 

.003 7 

20 

.000 7 

.000 8 

• 000 9 

.0010 

• 001 1 

.001 2 

.0014 

,001 5 

.0017 

.0019 

21 

.000 3 

• 000 3 

■ 000 4 

.000 4 

.000 5 

.000 6 

.000 6 

.000 7 

.000 8 

.000 9 

22 

.000 1 

.000 1 

• 000 2 

.000 2 

.000 2 

. 000 2 

.000 3 

.000 3 

.000 4 

.000 4 

23 

.000 0 

.0001 

.000 1 

• 0001 

.0001 

.0001 

.0001 

.0001 

.000 2 

.000 2 

24 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 0001 

.0001 

.0001 
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可。从表 5. 9我们 看到： 通过査找对应于 : t =5的行，和对应于/!== 10的列，就能够得到在15分 
钟内恰有5辆汽车到达的概率。于是我们有/(5) =0.037 8。 

这个例子涉及到一个15分钟的时段，但也可以使用其他的时段。假定我们需要计算在3分 
钟内恰有1辆汽车到达的概率。因为在15分钟内到达的期望数是10辆，则10/15 =2/3辆就是 
在1分钟内到达的期望车数，从而 (2/3) x 3 分钟= 2是3分钟内到达的期望车数。因此，当 
2时在3分钟时段内 到达％ 辆的概率可由下列泊松概率函数 计算： 

0 x p~ 2 

/U) — 

假如现在我们想要计算在3分钟内恰有1辆到达的概率，可利用该函数得到 

在3分钟内恰有1辆到达的概率=/(1) = 0.270 7 

一个涉及长度或距离间隔的例子 

让我们演示一个与时间间隔无关的泊松概率分布应用。假定我们需要知道的是公路在重新整 
修一个月以后存在的严重缺陷个数。我们假设在公路上任意两段等长度的距离内存在缺陷的概率 
相同，而在任意一段距离内是否存在缺陷与另一段内是否存在缺陷无关。于是，我们就能够对其 
应用泊松概率分布。 

假设我们知道公路在重新整修一个月以后平均每英里存在两个严重缺陷，让我们来求出在 
3英里长的路段内没有严重缺陷的概率。由于我们关心的是3英里长的路段，所以/1=2个缺 
陷/英里 x 3 英里= 6，表示在3英里长公路上的期望缺陷数。使用附录 B 中的表7或公式 
(5.11)，我们看到没有缺陷的概率为0.0025。所以3英里长的路段内没有严重缺陷的概率几乎 
为零，事实上，由于1 -0.002 5 = 0.997 5,这段路面至少存在1个严重缺陷的概率为 0. 997 5。 



方法 

38. 考虑 / x = 3的泊松概率分布。 

a . 写出适当的泊松概率函数。 

b . 计算/(2)。 

c . 计算/( I )。 

d . 计算 PU >2)。 ^ 

39, 考虑一个在每个时间段内事件平均发生2次的泊松概率分布。 
■d a . 给出适当的泊松概率函数。 

b . 在3个时间段内事件的平均发生次数是多少？ 
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c . 求出适当的泊松概率函数以确定在3个时间段内事件发生 x 次的概率。 

d . 计算在1个时间段内事件发生2次的概率。 


e . 计算在3个时间段内事件发生6次的概率。 


f . 计算在2个时间段内事件发生5次的概率。 


应 用 

40. Regional 航空公司的机票预订处平均每小时打进 48 个电话。 

a. 计算在 5 分钟的时段内接到 3 个电话的概率。 

自测题 

b. 计算在 15 分钟内恰好接到 10 个电话的概率。 

c. 假设目前有一个电话在线。如果话务员接听一个电话需要 5 分钟，在这段时间内你 
期望有多少个电话处于等待中？无人等待的概率是多少？ 

d. 如果目前没有电话需处理，话务员能够休息 3 分钟而不被电话打扰的概率是多少？ 

41. 在本地某大学的黾诘注册期间，平均每 2 分钟打进 1 个电话。 

a. 在 1 小时内期望的电话数是多少？ 

b. 在 5 分钟内接到 3 个电话的概率是多少？ 

c. 在 5 分钟内没有接到电话的概率是多少？ 

42 . 每年 Barron’s 的订户因私人原因在国内飞行旅行的平均次数是 4( Barron’s 1995 Primary Reader 
Survey) 0 

a. 订户在 1 年内因私人原因进行 2 次国内飞行的概率是多少？ 

b. 订户在 3 个月内因私人原因进行国内飞行的平均次数是多少？ 

c. 订户在 6 个月内因私人原因进行 1 次或更多次国内飞行的概率是多少？ 

43. 在某大型国际机场，乘客们随机并且独立地到达乘客监视器。其平均到达率为每分钟 10 名乘 
客。 

a. 在 1 分钟内无人到达的概率是多少？ 

b. 在 1 分钟内有 3 名或更少乘客到达的概率是多少？ 

c. 在 15 秒内无人到达的概率是多少？ 

d. 在 15 秒内至少有 1 人到达的概率是多少？ 


44. The Wall Street Journal Interactive 订户的投资活动表明，他们每年进行证券交易的平均次 

数为15次 （ 77 ie Wall Street Journal Subscriber Study ， 1999) 。假定某个投资者以该频率进行交 
易，此外，还假定在任意两个月内该投资者进行交易的概率相同，并且在一个月内交易与否 
与在其他任意月份的交易情况相互独立。回答下列 问题： 

a . 该投资者每月交易的平均次数是多少？ 

b . 该投资者在1个月内没有进行证券交易的概率是多少？ 

c . 该投资者在1个月内恰有1次证券交易的概率是多少？ 





第 5 章离散概率分布221 

d . 该投资者在1个月内证券交易超过1次的概率是多少？ 

45. 每年发生在15—24岁年龄组中的火器事故导致了 450起死亡 （4 cci 办批 Facfc，National Safety 
Council , 1996)。 

a . 每个星期由火器引起的死亡事故的平均次数是多少？ 

b . 在任意1个星期内，没有发生火器死亡事故的概率是多少？ 

c . 在任意1天内，由火器引起2次或以上死亡事故的概率是多少？ 


5.6 超几何概率分布 

超几何概率分布与二项概率分布紧密相关。两种概率分布的主要不同之处 在于： 超几何分布 
的各次试验不是互相独立的，并且每次试验成功的概率各不相同。 

在超几何概率分布的应用中，通常采用的标记 是：令 『代表在容量为 iv 的总体中用成功表示 
的元素 个数； 令 iV - r 代表在总体中用失败表示的元素个数。 超几何概率函数 (hypergeometric 
probability function ) 可用来计算在一个包括 n 个元素的随机样本内进行无放回地选择，得到％次成 
功和次失败的概率。要取得这个结果，我们必须从总体的 r 次成功中抽到％次成功，从 
W - r 次失败中抽到 n - rc 次失败。下面的超几何概率函数给出了 /( 幻即在容量为 n 的样本中获 
得; c 次成功的概率的计算 方法： 



注意表示从容量为/ V 的总体中选择 n 容量样本的方 法数； 表示从总体的总计 r 次 


成功中选择 X 次成功的方 法数； 表示从总体内总计 / V - r 次失败中选择 X 次失败的方 

- %、 

法数。 

为了说明使用公式 (5. 12) 计算超几何概率的过程，让我们考虑这样一个 问题： 从一个五人委 

员会中选择两人参加在拉斯韦加斯的例会。假设五人委员会由三女二男组成。为确定随机选择到 
2名妇女的概率，我们能够对2， / V = 5, r = 3, x =2 的情况，使用公式 (5. 12) 
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/( 2 )= 



3! 


2!1 


r) (vk) 


(#r) 


丄 

To 


= 0.30 


假设我们后来知道将有 3 名委员参加这次旅行，则取71= 3 ， N = 5 9 r = 3, jc = 2,从而在3 
名委员中恰有2名女性的概率为 



_ 6 _ 

10 


= 0. 60 


再举一个例子，假设某总体由10个项目组成，其中4项有缺陷，6项没有缺陷。问在容量为 
3的随机样本中包括2项缺陷项目的概率是多少？对该问题，我们可以把抽到缺陷项目作为“成 
功”。这时 n = 3， N = 10 , r =4, 2,我们能够计算 如下： 


/( 2 )= 



-1L.) ( 业 ) 

10 ! 

3!7! 


36 

~120 


= 0. 30 



方法 


46. 



自测题 


假设 yv = io 且 ；■= 3,计算具有下列 

a . n = 4, x = 1 

b. n = 2, x-2 

c . n . = 2, ^ = 0 

d. n = 4, x = 2 


n 和: r 值的超几何概率。 


47,假设 7 V =15 且 r =4， x =3 和 ra = 10 时的超几何概率是多少？ 


应用 

48. 根据《饮料文摘》的数据，可口可乐和百事可乐名列销售量的第一和第二位 （ TTieffW / S 故找 
Journal Almanac, 1998) 0 假设在一个10人小组中，有6人喜欢可口可乐，4人喜欢百事可 
乐。从这10个人中选择一个3人随机样本。 
a . 样本中恰有2人喜欢可口可乐的概率是多少？ 
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b . 样本中的大多数人 （2 人或3人）喜欢百事可乐的概率是多少？ 

49. 黑杰克，通常又被称为 “21点”，是一种在拉斯韦加斯赌场中流行的赌博游戏。在游戏中，每 
个玩家有两张牌，花牌 （ J 、 Q 和 K ) 和10的分值为10, A 的分值为1或11。在一副52张扑 
克中，共有16张牌分值为10以及4张 A 。 

a . 两张牌都是 A 或10点牌的概率是多少？ 

b . 两张牌都是 A 的概率是多少？ 

c . 两张牌的分值都为10的概率是多少？ 

d . —张10点牌再加一张 A 的分值为21点，称为黑杰克。利用你在 （ a )、（ b )、（ c ) 中的答案 
确定一名玩家得到黑杰克的概率（提 示： （ d ) 不是超几何分布问题，你需要找到如何把 
( a )、（ b )、（ c ) 结合起来回答这个问题的逻辑关系的方法）。 

50. Axline 计算机公司在两个工厂生产个人电脑，一个位于得克萨斯，另一个位于夏威夷。 
gD > 得克萨斯的工厂有40名员工，夏威夷工厂有20名员工。假设要从两工厂抽取10名雇 

自测题 

员作为随机样本填写利益调查问卷。 

a . 样本没有抽到夏威夷工厂员工的概率是多少？ 

b . 样本中有1名员工来自夏威夷工厂的概率是多少？ 

c . 样本中有2名或更多员工来自夏威夷工厂的概率是多少？ 

d . 样本中有9名员工来自得克萨斯工厂的概率是多少？ 

51. St . Andrew 学校的六年级班中有25名学生 （14 个男生和11个女生）。周四有5名学生缺课。 

a . 缺课学生有2个是女生的概率是多少？ 

, b . 缺课学生有2个是男生的概率是多少？ 

c . 所有缺课学生都是男生的概率是多少？ 

d . 没有一个缺课学生是男生的概率是多少？ 

52.在一批10件的货物中有2件次品，8件正品。在检查货物时，将选择一个样本并对其进行测 
试。如果在样本中发现次品，该批10件货物将被全部拒收。 

a . 如果选择3件货物作为样本，那么这批货物被拒收的概率是多少？ 

b . 如果选择4件货物作为样本，这批货物被拒收的概率是多少？ 

c . 如果选择5件货物作为样本，这批货物被拒收的概率是多少？ 

d . 如果管理者需要以 0.90 的概率拒收这批包括2件次品、8件正品的货物，你建议应选择多 
大的样本？ 
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本章介绍了随机变量的概念，以给出对试验结果的数值描述。我们看到，随机变量的概率分 
布显示了随机变量取不同值时的概率。对于任意的离散随机变量，都是通过概率函数来定义概率 
分布，概率函数用 /( M 表示，它给出了随机变量取每个值的概率。而一旦定义了概率函数以后， 
就可以计算随机变量的数学期望和方差。 

二项概率分布可用来确定在/ I 次试验中得到 x 次成功的概率，它具有下列 性质： 

1. 二项试验是把相同的单次试验进行了 n 次所形成的一个序列。 

2. 每一单次试验都有两个可能结果，一个称为成功，另一个称为失败。 

3. 每一单次试验的成功概率 p 都相等，从而每一单次试验的失败概率 1 -p 也相等。 

4. 各次单次试验之间都是相互独立的。 

当以上四个条件都满足时，就可以使用二项概率函数或二项概率表来确定在 n 次试验中得到 
x 次成功的概率。本章还给出了二项概率分布的均值和方差公式。 

如果需要确定在一段时间或空间内事件发生 x 次的概率时，可以使用泊松分布。但要适用泊 
松分布，还必须遵循以下的 假设： 

1. 在任意两个等长度的区间内，事件发生一次的概率相等。 

2. 事件在任意的区间内是否发生与在其他区间内的发生情况互相独立。 

第三种离散概率分布一:超几何概率分布在 5.6 节作了介绍。像二项分布一样，它也被用来 
计算在/ I 次试验中得到 x 次成功的概率。但与二项分布有所不同的是，它的各次单次试验的成功 
概率不同。 


水语辞义 


随机 变量： 对试验结果的数值性描述。 

离散随机 变量： 可取有限个值或者可取一个存在间隔的无穷数列值的随机变量。 

连续随机 变量： 可取一个区间或区间集合内任意值的随机变量。 

概率 分布： 描述了随机变量取各个可能值时所对应的不同概率。 

概率 函数： 用 /“) 表示的函数，它提供了随机变量取每个值时的概率。 

离散均匀概率 分布： 在这种概率分布形式下，随机变量取每个可能值的概率相同。 
数学 期望： 对随机变量的平均值或中心位置的度量。 

方差： 对随机变量的变异程度或分散程度所进行的度量。 

标 准差： 方差的正平方根。 

二项 试验： 具有在 5. 4节开始部分所列出的四种性质的概率试验。 
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二项概率 分布： 一种概率分布，用来显示在二项试验的 n 次单次试验中有^次成功的概率。 

二项概率 函数： 用来计算二项试验概率的函数。 

泊松概率 分布： 一种概率分布，显示了在某个特定的时间区间或空间区间内，一个事件发生$次 

的概率。 

泊松概率 函数： 用来计算泊松概率的函数。 

超几何概率 函数： .该函数是用于计算当每次的单次试验相互关联时，在 n 次单次试验中有％次成 

功的概率。 


f 矣公 



离散均匀概率函数 


f ( x ) = 1 / n 

式中， n -随机变量可取的数值个数 

离散随机变量的数学期望 


离散随机变量的方差 


E { x ) =/ t = Z xf { x ) 


Var ( x ) = a 2 - fi ) 2 f { x ) 

在 n 次试验中怡有$次成功的试验结果个数 


二项概率函数 

二项概率分布的数学期望 

二项概率分布的方差 

泊松概率函数 



ra! 

X! Gi - X)! 


f ( x ) - (:) p*(l - p ) {n ~ x) 

E ( x ) - fi - np 

Var ( x ) = a 2 = np { l - p ) 


(5.3) 

(5.4) 

(5.5) 

(5.6) 

(5.8) 

(5.9) 

(5.10) 

(5.11) 
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超几何概率函数 



(5.12) 


计充炼 


53. 《华尔街曰报》 / NBC 新闻调查向2004名成年人询问了他们对于职业发展机会的看法 (The 
Wall Street Journal, September 19, 1997) 。23%的调查对象认为他们非常满意； 38%认为比较满 
意； 3%无法 确定； 18%认为比较不 满意； 18%认为非常不满意。以 rc 作为表示满意水平的随 
机变量，我们令表示非常满意，表示比较满意 ， x = 3 表示无法确定， x =2 表示比 
较不满意， ％ = 1 表示非常不满意。 

a . 利用上面的数据建立职业发展机会满意水平的概率分布。 

b . 计算期望的满意水平。是否较高的分数表示更大的满意？ 

c . 计算满意分数的方差和标准差。 

54. Louis Harris & Associates 公司对 1 009名成年人进行了 观点调查（ Business Week, December 29, 
1997)。表 5. 10显示了对有关股市价值问题观点的概率分布。 

a . 说明表 5. 10的概率分布是否满足所有概率分布的性质。 

b . 观点概率分布的数学期望和方差分别是多少？ 

c . 对于人们是否认为股市价值被高估了这一问题进行评论。 

表 5. 10 对有关股市价值观点的概率分布 


股市价值 

随机变量 U ) 

概率 / U ) 

严重低估 

1 

0. 02 

有些低估 

2 

0. 06 

定价合理 

3 

0. 28 

有些髙估 

4 

0. 54 

严重髙估 

5 

0. 10 


55. Midwestern 学院的预算程序生成下一年的预测费用为（以百万美元为单位 ）： 9, 10, 11，12和 
13。因为实际的费用未知，故分别给它们分配概 率为： 0.3, 0.2, 0.25, 0.05 和0.2。 

a . 写出预测费用的概率分布。 

b . 预测费用的数学期望是多少？ 

c . 预测费用的方差是多少？ 

d . 如果下年的计划收入是1 200万美元，评论该学院的财务状况。 
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56. Kristen DelGuzzi 对一个3年期 Hamilton 县的法官和法庭表现进行了 研究 （ The Cincinnati Enquir ¬ 
er , January 11, 1998)。 其中的一个发现是在普通诉讼法庭裁决的案件中有4%的案件被上诉。 

a . 如果该法庭某天审理了 20个案件，有3件被上诉的概率是多少？ 

b . 如果该法庭某天审理了 20个案件，没有1件被上诉的概率是多少？ 

c . 该法庭1个月审理1 200个案件很正常，问被上诉案件的期望数是多少？ 

d . 如果该法庭1个月审理了 1 200个案件，那么被上诉案件数的方差和标准差是多少？ 

57. 某公司正计划拜访互联网用户，以了解它计划开设的网站被不同年龄层次用户接受的情况。 
根据人口普查署的数据，年龄在18 — 54岁之间的居民有40%使用互联网，在55岁及以上年 
龄段的居民有 12% 使用互联网 （ Statistical Abstract of the United States , 2000) 。 

a . 必须要接触多少个 18—54 岁年龄段的居民，才能使找到的互联网用户人数的期望值为至 
少10人？ 

b . 必须要接触多少个55岁及以上年龄段的居民，才能使找到的互联网用户人数的期望值为 
至少10人? 

c . 如果你接触的18—54岁年龄段的居民人数为 （ a ) 中的答案数，那么其中互联网用户人数的 
标准差是多少？ 

d . 如果你接触的55岁及以上年龄段的居民人数如 （ b ) 答案所示，那么其中互联网用户人数的 
标准差是多少？ 

58. 许多公司使用一种被称为 抽样验 收的质量控制技术，来检测运到的零部件、原材料等货物。 

在电子工业中，电子元件通常是以很大的批量从供应商那里发货。检测由 n 个元件组成的样 
本可被看做是二项试验的 ri 次试验，根据每个元件的测试（即单次试验）结果可以把元件分 
为良好和不合格。如果某批货物中的不合格元件不超过1%的话， Reynolds 电子公司就将从供 
应商那里接受该批货物。假定从近期的一批货物中随机抽取5件作为样本进行测试。 

a . 假设该批货物有1%不合格，计算样本中的货物全部合格的概率。 

b . 假设该批货物有1%不合格，计算样本中恰有1件不合格品的概率。 

c . 如果该批货物有1%不合格的话，那么在样本中检测到1件或更多不合格品的概率是多 
少？ 

d . 如果在样本中只发现1件不合格品的话，你对接受这批货物是否感到踏实？为什么？ 

59. 某个时期的失业率是 4. 1% ( fiarrwi ’ s，September 4,2000)。假设随机地抽取了 100名可就业人口。 

a . 其中失业人数的期望值是多少？ 

b. 其中失业人数的方差和标准差是多少？ 

60 . 在 1997 年 12 月，美国司法部提起了对微软公司的诉讼，控告该公司在它的 Windows95 操作 
系统中捆绑了它的 IE 浏览器产品 （ Fortune , February 2, 1998) 。 社会公众对此事的意见可以根据 
是否认为微软公司构成垄断而分为两种。在《财富》杂志的民意调查中，有 41% 的调查对象赞 
同这样的说 法：“ 微软是一家垄断企业。”假设我们抽取 800 人作为样本。 

a . 其中你能够期望的赞同微软是垄断企业的人数是多少？ 
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b . 其中相信微软是垄断企业的人数标准差是多少？ 

c . 其中不相信微软是垄断企业的人数标准差是多少？ 

61. 汽车随机且独立地到达汽车清洗站，在任意两个等长的时间段内，汽车到达的概率相同，其 
平均到达率为每小时15辆。在任意给定的1小时营业时间内，到达的汽车数大于等于20的 
概率是多少？ 

62. —个新的自动生产线平均每天发生 1.5 起故障，由于与故障有关的成本因素，管理者想知道 
在1天内发生3起或更多故障的概率。假设故障是随机发生的，在任意两个等长的时间段内 
故障的发生概率相同，并且在一段时间内故障是否发生与在其他时段内的故障发生情况相互 
独立。问在1天内发生3起或更多故障的概率是多少？ 

63. 一个负责宾夕法尼亚州商业发展的地区官员关心小企业倒闭的数字。如果每月倒闭的小企业 
数平均为10的话，则在任意给定的1个月内恰有4家小企业倒闭的概率是多少？假设小企业 
在任何两个月的倒闭概率相同，并且在任何月份是否倒闭与在其他月份的倒闭情况相互独立。 

64. 顾客随机且独立地到达银行。其在任意1分钟到达的概率与在其他1分钟时段内的到达概率 
相同。假设顾客的平均到达率为每分钟3人。 

a . 1分钟内恰有3人到达的概率是多少？ 

b . 1分钟内至少有3人到达的概率是多少？ 

65. 大多数人都熟悉抽5张牌的扑克游戏。对于一副包括4张 A 的52张扑克，抽出的5张牌中有 
如下情况的概率是多少？ 

a . 1 对 A 。 

b . 恰有1张 A 。 

c . 没有 A 。 

. d . 至少1张 A 。 


66. 根据 WTA 巡回赛和 ATP 巡回赛的数据，排名前10位的女网球选手中有4名使用 Wilson 球拍 
(USA Today , March 2, 1995)。假设前10名选手中有2位进入了锦标赛的决赛。 

a . 恰有1人使用 Wilson 球拍的概率是多少？ 

b . 两人都使用 Wilson 球拍的概率是多少？ 

c . 无人使用 Wilson 球拍的概率是多少？ 


附录5, 1利用 Minitab 计算离散随机概率 

诸如 Minitab 这样的统计软件包提供了相对简单而有效的计算二项概率的方法。在本附录中， 
我们将演示如何确定 5. 4节马丁服装商店问题的二项概率。我们已知该二项概率的打=10和 p = 
0.30。在开始 Minitab 程序之前，使用者必须先把所需的随机变量^的值输入工作表的一列中。 
我们把值0, 1, 2 ，…， 10输入列 1( 见图 5.5), 以生成整个二项概率分布。.能够得到所需二项概 
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率的 Minitab 步骤如下： 

步骤 1 . 选择 Calc 下拉 菜单； 

步骤 2. 选择 Probability Distributions 选项； 
步骤 3. 选择 Binomial 选项； 

步骤4 .当 Binomial Distribution 对话框出现时: 
选择 Probability ; 

在 Number of trials 框输入 10; 

在 Probability of success 框输入 0. 3; 
在 Input column 框输入 Cl ; 

点击 OK 。 


Minitab 产生的二项概率输出结果如图 5. 5 所示。 

Minitab 还能够以类似的方法得到泊松概率。不同之处是在步骤3应选择 Poisson 选项，在步 
骤4应输入 Mean 的值而不是试验次数和成功概率。 


附录 5. 2利用 Excel 计算离散概率分布 


Excel 提供了能够计算本章介绍过的二项分布、泊松分布和超几何分布概率的函数。计算二项 
概率的 Excel 函数是 BINOMDIST ， 它有四个自变量：成功次数 ）， n (试验次数）， P (成功概率） 
和累积。如果我们需要求 x 次成功的概率，则第四个自变量（累积）取 FALSE ; 如果我们需要的 
是小于等于^次成功的累积概率，则第四个自变量取 TRUE 。 在这里我们演示一下对于 5. 4节的 
马丁服装商店问题，怎样计算得到 0—10 次成功的概率(参见图 5. 5)。 

在我们描述如何创建工作表时，参考图 5. 6。公式工作表处在屏幕显示的底面，而数值工作 
表处在屏幕显示的表面。通过下列步骤能够生成所需要的 概率： 

步骤 1. 使用 BINOMDIST 函数计算％ =0的概率向单元格 B 2 输人下面的 公式： 

= BIN 0 MDIST ( A 2, 10, 0.3, FALSE ) 

步骤 2. 把单元格 B 2 中的公式复制到单元格 B 3: B 12。 

图 5. 6表明的数值工作表得到的概率与图 5.5 得到的概率 相同。 用类似的方法也能够计算泊 
松和超几何概率，只是在计算时分别使用了 POISSON 和 HYPERGEOMDIST 函数。 Excel 的函数向 
导能够帮助使用者向这些函数输入正确的自变量（见附录 2. 2)。 



230 商务与经济统计 



0 

005S62 

1 

tmm 

2 

02355 

3 

0.2658 

A 

0.2001 

5 

0,1029 

6 

0.0368 

7 

0,0090 

8 

0.0014 

9 

0.0001 

10 

0.0000 


图 5. 6 计算二项概率的 Excel 工作表 











连续概率分布 


统计实 例:宝 洁公司 
6. 1均匀概率分布 

作为概率度量的面积 

6.2 正态概率分布 

正态曲线 

标准正态概率分布 
计算任意正态概率分布的概率 
Grear 轮胎公司问题 
6.3 指数概率分布 

计算指数分布的概率 
泊松分布与指数分布的关系 
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宝洁公司* 

辛辛那提，俄亥俄州 

宝洁公司 （ P & G ) 在全世界经营日用消费品业 
务。宝洁生产与销售种类繁多的产品，如去污剂、 
方便尿布、非处方药品、牙膏> 肥皂、漱口剂和纸 
巾等产品。它比其他任何消费品公司拥有着更多种 
类的领先品牌。 

作为一个在决策中引入统计方法的先行者，宝 
洁公司雇用了具有各种学术背景的人士，他们拥有 
如下 专业： 工程学、统计学、运筹学和商务。这些 
人提供的主要定量技 术是： 概率性决策和风险分 
析、预先模拟、质量改进和定量方法（如线性规 
划、回归分析）。 

宝洁公司的工业化学部是脂肪乙醇的主要供应 
商，而脂肪乙醇是从椰子油等天然原料和石油衍生 
产品中提取的。该部门想知道扩建其脂肪乙醇生产 
设施的经济风险和机会，于是请了宝洁公司的概率 
决策和风险分析专家提供帮助。通过对问题建立模 
型并进行分析，专家们确定了获利能力的关键在于 
石油原料和椰子原料间的成本差异。虽然未来成本 
是未知的，但是借助于一些连续随机变量，分析人 
员能够对它进行描述。该问题需要的连续随机变量 
如下： 

无=每磅脂肪乙醇所需的椰子油 价格； 

和 每磅脂肪乙醇所需的石油原料价格。 

因为获利能力的关键就在于这两个随机变量的 
差，于是在分析中还使用了第三个随机变量： 4 = 
t - y 0 专家们被要求 确定％ 和: K 的概率分布，以 



宝洁公司众多知名产品中的一部分。 © Joe Higgins / 
South - Western . 


进一步使用这些概率分布的信息建立价差的概率分 
布。价差的连续概率分布表明价差小于等于 0. 065 5 

美元的概率为0.90,价差小于等于 0.035 美元的 
概率为0.50。另外，价差小于等于 0.004 5 美元的 
概率只有 0. 10。 

工业化学部认为，是否能够量化原料价差的影 
响是达到一致意见的关键。以上分析取得的概率可 
用于对原料价差进行敏感性分析，使得分析人员有 
了充分的把握向管理当局提出建议。 

使用连续随机变量及其概率分布有助于宝洁公 
司分析脂肪乙醇产品的经济风险。在本章，你将学 
习到连续随机变量和它们的概率分布，其中包括统 
计学中最重要的概率分布之一：正态分布。 


* 作者感谢宝洁公司的 Jo el Kah n 提供了该统计实例。 

* * 为了保护数据所有者的利益，对这里出现的价差已做了修改。 
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上一章我们讨论了离散随机变量和它们的概率分布，本章我们转向研究连续随机变量。我们 
重点讨论三种连续概率 分布： 均匀概率分布、正态概率分布和指数概率分布。 

离散随机变量和连续随机变量间的基本区别在于如何计算它们的概率。对于离散随机变量， 
概率函数 /( 幻给岀了随机变量取某个特定值的 概率； 而对于连续随机变量，概率函数的对应者是 
概率密度函数 （probability density function) ，也记作/(文）。它和概率函数的区别是概率密度函数不 
直接给出概率，而是通过在给定区间内/(%)曲线下的面积，给出了连续随机变量 x 在该区间上取 
值的概率。所以当我们计算连续随机变量的概率时，就是计算随机变量在某个区间上取任意值的 
概率。 

对连续随机变量定义的推论之一是随机变量取任意一个特定值的概率为零，这是因为/(%)曲 
线在任何特定的点处，_下的面积为零。在 6.1 节，我们将举例说明具有均匀概率分布的连续随 
机变量的这些概念。 

本章的大部分内容都用于描述和说明正态概率分布的应用。正态概率分布非常重要，它在统 
计推断中有着广泛的应用。本章的最后部分还将对指数概率分布进行讨论。 


6.1 均匀概率分布 


考虑一个表示从芝加哥到纽约的航班飞行时间的随机变量〜假设飞行时间可以是120— 
140分钟区间内的任意值，由于随机变量％能够在该区间上取任何值，因此 x 是连续的而不是离 
散的随机变量。假定我们可以利用足够的实际飞行数据得出 推断： 在120—140分钟的区间内，单 
位为分钟的飞行时间数出现在任意1分钟时段内的概率与出现在其他任意1分钟时段内的概率 
相同。如果随机变量 x 在每个1分钟区间内具有相等的出现可能性，我们就称它具有均匀概率分 
布 (uniform probability distribution) 0 对于飞行时间随机变量，我们定义均匀概率分布的概率密度函 
数为 


fix ) = 


「1/20 
0 


120彡 W 140 
其他 



只要概率与区间长度成比例，随机变量就是均匀分布。 
㈣ 


图 6.1 是这个概率密度函数的图形。一般来说，通过下面的公式能够建立随机变量％的均匀 


概率密度 函数: 


均匀概率密度函数 

f 1 

b 

(6.1) 

f ( x ) = 1 b-a 

1 0 

其他 
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在飞行时间例子中 ， a = 120, 6 = 140。 
fix ) 


20 

_- 1 - 1 - 1 - x 

v 120 125 130 135 140 

以分钟为单位的飞行时间 
图 6. 1 飞行时间的均均概率密度函数 

正如在引言中所注意到的，对于连续随机变量，我们只是根据随机变量在某个特定区间内取 
值的可能性来考虑概率。在飞行时间例子中，一个合理的概率问 题是： 飞行时间介于 120—130 
分钟之间的概率是多少？即尸 (120$ x $130) 是多少？由于飞行时间必定处于120 —140分钟之 
间，还由于概率在这个区间内是均匀分布的，我们可以放心地说尸 (120< x <130) =0.50。在下 
面的内容中，我们将通过计算在 120—130 区间内 / U ) 曲线下的面积，从而得到这个概率。 

作为概率度量的面积 

让我们对图 6.2 的曲线进行观察，考虑在 120—130 区间内 / U ) 曲线下的面积。该面积区域 
是一个矩形，只需把长乘宽即可得出它的面积。由于区间的长度等于130-120 = 10,而宽等于概 
率密度函数的值 /( x ) =1/20，因此我们得到面积=长 x 宽=10 x 1/20 =0. 50。 

你对于/(%)曲线下的面积和概率观察到了什么？实际上它们是同一个东西！的确，所有的连 
续随机变量都是如此。一旦得出了概率密度函数 /( W , 通过计算在区间内/(幻曲线下的 
面积，我们就能够得到％取值介于较小的^和较大的 &之 间时的概率。 

给定了飞行时间为均匀概率分布并且把面积作为概率，我们就可以回答任何有关的概率问 

f ( x ) 


P (120^ a ：^130) =面积 = 1/20(10) =10/20=0. 50 


1 



20 

_A 

- 

f 

-10- ► 

1 

1 



120 125 130 135 140 

以分钟为单位的飞行时间 


图 6. 2 矩形的面积给出了飞行时间介于 120-130 分钟之间的概率 
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题。例如，飞行时间在 128— 136分钟之间的概率是多少？由于该区间的长是 136- 128 = 8,宽等 
于概率密度函数值1/20，因此我们看到尸(128<;^136) =8 x 1/20 = 0.40。 

注意到 P (120 彡; ^140) =20 x 1/20 = 1，也就是说， / U ) 曲线下的总面积等于1。这个性质 
适用于所有的连续概率分布，并且与离散概率函数的概率之和必定等于1的要求相对应。对于连续 
概率密度函数，我们还必须 要求： 对 X 的所有值，有/(幻>0。该项要求与离散概率函数/(幻>0 
的要求相对应。 

对连续随机变量和对应的离散随机变量的处理有两个主要 区别： 

1. 对于连续随机变量，不再讨论随机变量取某一特定值的概率。而是讨论随机变量在某一特 
定区间取值的概率。 

2. 随机变量在从^到 a 的给定区间上取值的概率被定义为概率密度函数在^ 与& 之间 
的图形面积。它暗示着连续随机变量取某一特定值的概率恰好为0,因为 /( 幻曲线在单 
点下的面积为0。 


为了看出任意单点的概率等于0,参考图6.2,并计算某单点的概率。举例来说， 

当 ％ = 125时， P(x = \ 25 ) = P (\ 25 ^ x ^ l 25 ) =0 x 1/20=0。 

连续随机变量的方差和数学期望的计算过程与离散随机变量类似。不过，由于计算过程涉及 
积分计算，我们将把复杂的公式推导放在更高级的课程中。 

对于本节介绍的均匀连续概率分布，其数学期望和方差公式分别为 

Var(,)=-^ T ^ 

在这两个公式里面， a 是随机变量的最小可能值， 6是随机变量的最大可能值。 

把它们应用到芝加哥到纽约飞行时间的均匀概率分布中，可以得到 

E ( x ) = 120 ^ 140 =130 

VarU ) = ^ 140 ~ 2 120 -=33.33 
飞行时间的标准差取方差的正平方根即可，因此，0* = 5.77分钟。 
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评注 


1. 因为连续随机变量取任意的特定值时，其概 
率为0。所以，有 P ( a ^ x ^ b ) = P ( a <x 

<6)。这个结果 表明： 随机变量在任一区间 
取值的概率，不管端点是否包括在内，都是 
相同的。 

2. 为了更清楚地看出为什么概率密度函数的高 
度不是概率，考虑具有下列均勻概率分布的 
随机变量： 


,、 [2 0 ^ x ^ 0.5 

/U) = lo 其他 

当 X 在0到 0.5 之间时，概率密度函数 f ( x ) 
的高度为2。但是我们已经知道概率永远不 
可能大于1,因此/(幻不能被解释为 是无的 
概率。 


炼幻 


方法 

1. 已知随机变量 rc 在 1.0 — 1.5 之间服从均句分布。 
a . 作出它的概率密度函数曲线。 

自测题 b . 计算 P ( ^ = 1. 25) o 

c . 计算 P (1.0^^^ L 25 ) o 

d . 计算 P (1.20<^<1.5 ) o 

2. 已知随机变量％在10 — 20之间服从均匀分布。 

a . 作出它的概率密度函数曲线。 

b . 计算 P ( x < 15) 0 

c . 计算 P (12^^：^18 )o 

d . 计算 E ( x)o 

e . 计算 Var ( %)。 

应用 

3. 三角航空公司宣称其从辛辛那提到坦帕的航班飞行时间为2小时零5分。假设我们认为实际的 
飞行时间服从2小时到2小时20分之间的均勻分布。 

a . 作出飞行时间的概率密度函数曲线。 

b . 飞行时间晚点不超过5分钟的概率是多少？ 
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c . 飞行时间晚点不超过10分钟的概率是多少？ 

d . 飞行时间的期望值是多少？ 


4. 大部分计算机语言都有能够生成随机数的函数。 Excel 应用程序使用 RAND 函数来生成 

0到1之间的随机数。如果我们以； c 表示生成的随机数，那么％就是一个具有如下概 


1 

其他 

a . 画出它的概率密度函数。 

b . 生成的随机数介于 0.25—0.75 之间的概率是多少？ 

c . 生成的随机数小于或等于 0. 30的概率是多少？ 

d . 生成的随机数大于 0. 60的概率是多少？ 

5. 在 LPGA 巡回赛中成绩最好的60名女高尔夫球手的击球距离在 238. 9—261. 2码之间 
( Golfweek , December 6, 1997) 。假设这些女选手的击球距离在该区间上服从均句分布。 

a . 给出击球距离的概率密度函数的数学表达式。 

b . 一名女选手的击球距离小于250码的概率是多少？ 

c . 一名女选手的击球距离至少为255码的概率是多少？ 

d . 一名女选手的击球距离在245到260码之间的概率是多少？ 

e . 这些女选手中有多少人的击球距离至少为250码？ 

6. 一瓶液体清洁剂上的标签注明每瓶的容量为12盎司。生产线能够根据下面的概率密度函数均 
匀地填充瓶子： 


、自测题 


率密度函数的连续随机变量: 


f ( x ) = 


1 

■0 



11. 975彡 x 彡 12. 10 

其他 


a . 一个瓶子的填充量在12 — 12. 05盎司之间的概率是多少？ 

b . —个瓶子的填充量为 12.02 盎司或更多的概率是多少？ 

c . 该公司质量控制所要求的填充 量为： 在标签注明盎司数的上下 0.02 盎司范围内。问填充时 
达不到质量控制标准的概率是多少？ 

7. 假设我们有兴趣对一块土地投标，并且知道还有一位投标人、卖方已经宣布超过10000美元 
且最高的标价会被接受。假定竞争者的投标价格％是在10000 —15 000美元之间的均匀分布。 

a . 假如你出价12000美元，你中标的概率是多少？ 

b . 假如你出价14000美元，你中标的概率是多少？ 

c . 为了使你得到土地的概率最大，你应出价多少？ 

d . 假设你知道某人愿意为这块土地向你支付16000美元，你会考虑以小于 （ c ) 中的价格投标 
吗？为什么？ 
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冰 


这一练习以西北大学的 Roger Myerson 教授向我们建议的问题为基础。 
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6.2 正态概率分布 

最重要的描述连续随机变量的概率分布是 正态概率分布 (normal probability distribution ) 0 正态 
概率分布有着广泛的实际应用，其中的随机变量可以是人的身高和体重、考试成绩、科学度量值 
和降雨量等等。它还普遍应用于统计推断方面，而这将是本书剩余部分的主要内容。在这些应用 
中，正态概率分布描述了从样本中得到的可能结果。 


法国数学家 Abraham de Moivre 于 1733 年发表了 77 ie Doctrine of Chances , 他导出了 
正态概率分布。 

正态曲线 


正态概率分布的形状可以用图 6.3 的钟形曲线来表示。概率密度函数定义正态概率分布的钟 

形曲线 如下： 

正态概率密度函数 一 

八 (6 . 2) 

式中 从=均值； 

0* =标准差； 

7 T = 3. 141 59； 

e = 2. 718 28 




均值 /x 


图 6. 3 正态概率分布的钟形曲线 
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正态曲线有两个参数 M 和^，它们确定了正态概率分布的位置和形状。 


我们对正态概率分布的特征所做观察的结果 如下： 

1. 依靠均值 M 和标准差^•可以区分不同的正态分布。 

2. 正态曲线的最高点在均值位置，它同时也是正态分布的中位数和众数。 

3. 正态分布的均值可以是任何 数值： 负数、零或者正数。三个标准差相同但均值分别为- 
10, 0和20的正态分布曲线列示 如下： 



0 


20 



4. 正态概率分布是对称的，正态曲线在均值左边的形状与在均值右边的形状互为镜像。曲线 
的尾部向两个方向无限延伸，在理论上永远不会与横轴相交。 

5. 标准差决定了正态曲线的宽度。更大的标准差导致了更宽、更扁的曲线形状，它表示数据 
有更大的变异性。两个均值相同但标准差不同的正态分布形状 如下： 



6. 正态随机变量的概率由正态曲线下的面积给出。正态概率分布曲线下的总面积为 1( 对所有 
的连续概率分布都是如此）。因为分布是对称的，均值左边的曲线下总面积是0.50,均值 
右边的曲线下总面积也是 0. 50。 
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7. 随机变量在一些经常使用的区间内取值的百分比概率为 

a . 正态随机变量有 68. 26%的值位于其均值加减1个标准差的范围内。 

b . 正态随机变量有 95. 44%的值位于其均值加减2个标准差的范围内。 

c . 正态随机变量有 99. 72%的值位于其均值加减3个标准差的范围内。 

图 6. 4直观地显示了性质 a 、 b 和 c 。 


这些百分比是在 3. 3 节介绍过的经验法则的基础。 



图 6. 4 任意正态概率分布曲线下的面积 


标准正态概率分布 

如果随机变量服从均值为0且标准差为1的正态分布，则称它为具有标准 正态概率分布 
(standard normal probability distribution ) 0 通常用字母 z 表示这个特殊的正态随机变量。图 6. 5就是 
标准正态概率分布的曲线，它的外观与其他正态分布的图形大致相同，只是拥有 /x = 0 和 a = l 的 
特殊性质。 



0 


图 6. 5 标准正态概率分布 
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与其他连续随机变量一样，任意正态概率分布的概率也是通过计算概率密度函数曲线下的面 
积得出的。因此，为了得到一个正态随机变量在某特定区间内的概率，我们必须计算在该区间内 
正态曲线下的面积。已经有人计算岀了标准正态概率分布曲线下的面积，并且用表格的形式给 
出，这些表可用于计算正态随机变量的概率。表 6.1 就是这样一个表，附录 B 的表1也用于同样 
的目的。 


对于正态概率密度函数，由于曲线的高是变化的，需要进行积分以计算代表概率的 
面积。 


为了说明标准正态分布曲线下的面积表(表 6. 1) 是怎样计算概率的，让我们来考虑一些例子。 
稍后，我们还将看到如何利用同一张表计算任意正态分布的概率。首先，我们来学习怎样计算标 
准正态随机变量的 z 值在 0.00 和 1.00 之间取值的概率，即 P (0. 00^ z ^ l .00 )o 


给定一个 z 值，我们利用标准正态表查出对应的概率（曲线下面积）。 


下图的阴影区域显示了这个概 率值: 



表 6.1 的各值给出了在均值 z = 0 和 z 的其他某个特定值之间标准正态曲线下的面积（见表 
顶部的图）。在本例中，我们感兴趣的面积处在 z = 0 和 z = 1.00 之间。因此，我们必须在表中 
找到与 z = 1.00 对应的值。首先，我们发现 1.0 在表的左列，然后在表上面的行中找到0.00。通 
过在表的主体内查找，我们发现 1.0 行和 0.00 列交点处的值为 0.341 3。于是我们已经找到了所 
需要的 概率： P (0,00 在 zSl .00) =0.341 3。表 6. 1的一部分说明了这些步骤。 

利用同样的方法，我们还能够得到 P (0.00^ z <1.25)。 首先把位置定在 1.2 这一行，然后 
移动到与 0.05 列的交点，我们就可以得到 P (0.00《 K 1.25) =0.3944。再举一个例子，我们计 
算 2 在 z = - 1.00 和 z = 1.00 之间取值的概率，即 P ( -1.00^ z ^ l .00 )o 

注意到我们已经在表 6.1 査到了 z 在 0.00 和 1.00 之间取值的概率是 0.341 3,并且我们知道 
正态概率分布是对 称的。 所以， z 在 0.00 和 -1.00 之间取值的概率与 z 在 0.00 和 +1.00 之间取 
值的概率相等。于是， z 值在 -1.00 和 + 1.00 之间的概率是 
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戶 （-1.00 彡 z 彡 0.00) + P (0. 00^2^1.00) =0. 341 3+0. 341 3=0. 682 6 


Z 

0. 00 

0. 01 

0. 02 

0.9 

0.315 9 

0.318 6 

0 . 321 2 

1.0 

| 0 , 3413 ^ 

0 . 343 8 

0 . 346 1 

1，1 

0. 364 3 \ 

0 . 366 5 

0 . 368 6 

1.2 

0 . 384 9 

\ 0. 386 9 

0 . 388 8 


P ( 0 . 00 矣 z 矣 1 . 00 ) 


表 6. 1 标准正态分布的概率或面积 


0 z 



z 

,0 

.1 

.2 

.3 

.4 

.5 

.6 

.7 

，8 

.9 

1.0 

1.1 


.00 

• 01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

• 000 0 

.004 0 

.008 0 

.012 0 

.016 0 

.019 9 

.023 9 

.027 9 

.031 9 

.035 9 

.039 8 

.043 8 

.047 8 

• 0517 

• 055 7 

• 059 6 

.063 6 

.067 5 

.071 4 

.075 3 

,079 3 

.083 2 

.087 1 

.091 0 

.094 8 

.098 7 

. 102 6 

. 106 4 

. 1103 

. 114 1 

. 117 9 

. 1217 

. 125 5 

. 129 3 

. 133 1 

. 136 8 

. 140 6 

. 144 3 

. 148 0 

. 1517 

• 155 4 

. 159 1 

. 162 8 

. 166 4 

. 170 0 

. 173 6 

. 177 2 

. 180 8 

. 184 4 

. 187 9 

. 191 5 

. 195 0 

. 198 5 

. 201 9 

. 205 4 

.208 8 

.212 3 

.215 7 

. 219 0 

.222 4 

.225 7 

.229 1 

.232 4 

.235 7 

.238 9 

.242 2 

.245 4 

.248 6 

. 251 8 

.254 9 

.258 0 

.261 2 

.264 2 

.267 3 

.270 4 

. 273 4 

.276 4 

.279 4 

.282 3 

.285 2 

.288 1 

. 291 0 

.293 9 

‘296 7 

.299 5 

.302 3 

,305 1 

，307 8 

.310 6 

.313 3 

.3159 

.3186 

. 321 2 

. 323 8 

. 326 4 

.328 9 

.331 5 

. 334 0 

.336 5 

.338 9 

• 341 3 

• 343 8 

.3461 

. 34^5 

.350 8 

. 353 1 

. 355 4 

. 357 7 

.359 9 

.362 1 

.364 3 

.366 5 

• 368 6 

.370 8 

• 372 9 

• 374 9 

. 377 0 

.379 0 

■ 381 0 

• 383 0 

• 384 9 

.386 9 

. 388.8 

. 390-7 

.392 5 

.394 4 

. 396 2 

• 398 0 

.399 7 

.401 5 


1.2 
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(续表) 


Z 

.00 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

1.3 

.403 2 

.404 9 

• 406 6 

.408 2 

• 409 9 

.411 5 

.413 1 

• 414 7 

.416 2 

.417 7 

1.4 

.4192 

.420 7 

.422 2 

.423 6 

.425 1 

.426 5 

• 427 9 

.429 2 

.430 6 

.431 9 

1.5 

.433 2 

.434 5 

.435 7 

.437 0 

.438 2 

• 439 4 

.440 6 

.441 8 

.442 9 

.444 1 

1.6 

.445 2 

.446 3 

.447 4 

• 448 4 

.449 5 

.450 5 

.451 5 

.452 5 

.453 5 

.454 5 

1.7 

.455 4 

.456 4 

.457 3 

.458 2 

.459 1 

• 459 9 

• 460 8 

• 461 6 

.462 5 

.463 3 

1.8 

■ 464 1 

■ 464 9 

.465 6 

.466 4 

.467 1 

.467 8 

• 468 6 

.469 3 

.469 9 

.470 6 

1.9 

■ 471 3 

.471 9 

.472 6 

.473 2 

.473 8 

• 474 4 

.475 0 

.475 6 

.4761 

.476 7 

2.0 

.477 2 

.477 8 

.478 3 

.478 8 

■ 479 3 

.479 8 

• 480 3 

.480 8 

• 481 2 

.481 7 

2.1 

.482 1 

.482 6 

.483 0 

• 483 4 

.483 8 

.484 2 

.484 6 

.485 0 

.485 4 

.485 7 

2.2 

.486 1 

.486 4 

.486 8 

.487 1 

.487 5 

.487 8 

.488 1 

.488 4 

• 488 7 

.489 0 

2.3 

.489 3 

• 489 6 

.489 8 

.4901 

.490 4 

.490 6 

.490 9 

• 491 1 

• 491 3 

.491 6 

2.4 

.491 8 

• 492 0 

■ 492 2 

.492 5 

• 492 7 

• 492 9 

• 493 1 

.493 2 

.493 4 

.493 6 

2.5 

.493 8 

.494 0 

.494 1 

.494 3 

■ 494 5 

.494 6 

.494 8 

• 494 9 

.495 1 

.495 2 

2.6 

.495 3 

• 495 5 

• 495 6 

■ 495 7 

.495 9 

• 496 0 

.496 1 

.496 2 

.496 3 

.496 4 

2.7 

.496 5 

• 496 6 

.496 7 

.496 8 

.496 9 

.497 0 

.497 1 

• 497 2 

.497 3 

.497 4 

2.8 

.497 4 

.497 5 

.497 6 

,497 7 

• 497 7 

.497 8 

.497 9 

.497 9 

.498 0 

.498 1 

2.9 

.498 1 

• 498 2 

.498 2 

.498 3 

• 498 4 

.498 4 

.498 5 

• 498 5 

• 498 6 

• 498 6 

3.0 

• 498 6 

.498 7 

• 498 7 

.498 8 

.498 8 

• 498 9 

.498 9 

.498 9 

.499 0 

• 499 0 


这个概率用图形表示 如下: 



-2 -1 0 +1 +2 +3 


用类似的方式，我们可以用表 6. 1的值得岀 z 值处在 - ZOO 和 +2. 00之间的概率是 0.477 2 + 
0.477 2=0.954 4 ， z 值处在 -3. 00和 + 3. 00之间的概率是 0. 498 6 +0. 498 6 =0. 997 2。因为我 
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们知道任何连续随机变量曲线下的总概率或总面积必定等于1.000 0,概率 0.9972 说明 Z 值几乎 
总是处在 - 3. 00和+ 3. 00之间。 


这些概率计算是前面第 240 页观察结果 7 的计算基础。 

下面，我们来计算 z 值至少为 1.58 的概率，即 Pf ^ l .58) o 首先，我们在表 6.1 中的 z = 
1.5 行和 0.08 列相交处找到 P (0. 00彡义 1.58) =0.442 9。因为正态分布是对称的，且曲线下的 
总面积等于1，所以我们知道曲线下面有50%的面积其 z 值大于均值（如 z = 0) ，有50%的面 
积其 z 值小于均值。如果0,4429是均值和 ^ = 1.58 之间的面积，那么对应于 z 多 1.58 的概率或 
面积必定为 0.5000-0. 442 9 =0.057 1。这个概率显示在下 图中： 


在00之下 
的总面积为 0. 500 0 



在 z = 0 . 00之上的 
总面积为 0. 500 0 

0.442 9是在 z =0.00 和 
z = 1. 58之间的面积 
P ( ^5=1. 58) 




0. 500 0-0. 442 9=0. 057 1 


z 


再举一个例子，考虑随机变量在 —0.50 以上取值的概率，即 P ( z ^ -0. 50) o 为了得到所需的 
结果，我们注意到要找的概率能够被表达为两个概率之和的 形式： P ( z ^- 0 . 50) = P (-0. 50^ 
z ^ O . 00) + P ( z ^ 0 . 00) o 我们已经知道彡 0.00) =0.50。 我们还 知道： 因为正态分布是对称 
的，所以 P (-0.50 矣 z 矣 0.00) = P (0.00 彡 z <0,50)。 参考表 6.1, 我们得到 P (0. 00彡 z 彡 0. 50) 
= 0.1915, ,因此 P ( z 彡 -0.50) =0. 191 5 + 0.500 0 = 0.691 5。下图显示了这个 概率： 



— 3 — 2 — 1 0 +1 + 2 + 3 


接下来，我们计算 z . 值处在 1.00 和 1.58 之间的概率，即尸(1.00<%1.58)。从上面的例 
子中，我们已知 z 值在 0.00 和 1.00 之间的概率是0.3413,并且 z 值在 0.00 和 1.58 之间的概 
率是0,442 9。于是， z 值介于1,00和 1.58 之间的概率为 0.442 9-0.341 3=0. 101 6,即 P 
(1.00 彡 gl . 58) =0. 1016。下图显示了这种 情况： 
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最后，让我们来找到概率为 0.10 的那个较大 z 值。下图表现了这种 情况: 



这个问题是前面所举例子的反问题。在前面，我们设定了感兴趣的 z 值，然后找到对应的概 
率或面积。而本例则先给出了概率，要求我们找到对应的 Z 值。为做到这一点，我们可以用不同 
的方式使用标准正态概率分布表(见表 6. 1)。 


给定概率，我们能够以一种相反的方式使用标准正态表，得到对应的 z 值。 


我们知道表 6. 1给出了介于均值和某特定 z 值之间的标准正态曲线下面积。我们已经拥有的 
信息是已知上侧的曲线下面积为 0.10, 于是，我们必须确定在均值和有关 z 值之间有多少面积。 
因为我们知道 0.500 0 的面积处在大于均值的位置，那么 0.500 0-0.100 0=0.400 0 必定是介于 
均值和所需 z 值之间的面积。观察表的主体，我们发现概率值 0.399 7最接近于0.400 0。表 6. 1 
的一部分提供了下面的 结果： 


Z 

0. 06 

0. 07 

0. 08 

0 . 09 

• 0 

0.355 4 

0. 357 7 

0. 359 9 

0. 362 1 

• 1 

0. 377 0 

0. 379 0 

0. 381 0 

0. 383 0 

♦ 2 

0. 396 2 

0.398 0 

0. 399 7 

0.401 5 

• 3 

0.413 1 

0.414 7 r 

0.416 2 

0. 417 7 

.4 

0. 427 9 

0 ‘ 429 2 / 

0. 430 6 

0.431 9 


表主体中最接近 0. 400 0 •的面积值 


•编 者注： 原文为 0. 900 0,疑误。 
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读出表的最左列和顶行的 z 值，我们发现对应的 z 值为1.28。因此，大约有 0.4000 (实际 
为 0.3997) 的面积介于均值和 z = l . 28之间。* 

就最初的问题而言，概率大约为 0.10, z 值比 1.28 稍大。该例子说明标准正态概率分布面积 
表还能够用来计算与标准正态随机变量 z 对应的概率值。在实际应用中，这两种类型的问题都可 
能被遇到，第一类问题设定了 z 的值，要求我们查表确定对应的面积或 概率； 第二类问题则给出 
了概率值，要求我们查表确定对应的 z 值。因此，我们需要灵活地运用标准正态概率表以回答所 
要求的概率问题。在大多数情况下，画出标准正态概率分布的草图并用适当的阴影表示概率或面 
积，可以帮助我们形象地了解问题并确定正确的答案。 

计算任意正态概率分布的概率 

我们之所以对标准正态分布进行如此广泛的讨论，原因是所有的正态分布概率都需要通过标 
准正态分布来计算。也就是说，当我们面对一个具有任意均值 g 和任意标准差 a 的正态分布时， 
首先要把它转换为标准正态分布，以回答分布的有关概率问题。然后我们利用表 6.1 和适当的 z 
值，能够找到所求的概率。能够把具有均值 p 和标准差^的任意正态随机变量： c 转换为标准正 
态随机变量 z 的公式 如下： 



标准正态随机变量的转换公式与我们在第 3 章介绍过的计算数据集 z 分数的公 
式类似。 



标准正态分布的转换公式 

X - /JL 

Z = 

(6.3) 


(7 



当％的值等于它的均值弘时会导致因此，我们看到当 x 的值等于均值 a 
时对应的 z 值处在均值0处。现在假定 a ; 大于均值1个标准差，即％ = a 。 应用公式 (6. 3) , 
我们看到对应的 z 值为[(弘 + f )- 弘] / a =6/6 = l 。 因此，大于均值1个标准差的 x 值对应 
于 z = U 换句话说，我们能够把 z 值解释为正态随机变量 r 距离均值 g 的标准差个数。 

下面我们来说明如何利用该转换计算任意正态分布的概率，假设我们有一个正态分布 ， g = 
10且 a = 2， 问随机变量％位于10和14之间的概率是多少？应用公式（6.3)，我们看 到当％ = 
10， z = ( x - fi)/a = {\ 0 -\ 0)/2 = 0 ; 当欠= 14， z = (14 — 10)/2 =4/2 = 2。因此，欠介于 10 — 
14之间的概率问题等价于标准正态分布的 z 介于0—2之间的概率问题。换句话说，我们所要寻 
找的概率就是随机变量％介于均值和均值以上2个标准差区间内的概率。对于 z = 2.00, 运用表 
6.1, 我们得到概率为 0.477 2。于是 a ; 介于10 —14的概率也就是 0.477 2。 


* 我们能够使用内插法在表中得到对应于 0.4000 面积的具有更好近似性的 2 值，这样做可以得到有更多小数位的更精确 z 
值1.282。不过，在大多数实际情况下，取得充分的精确性只需简单地利用最接近于所求概率的表内值获得的。 
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Grear 轮胎公司问题 

现在我们转到正态概率分布的一个应用例子上来。假定 Greai •公司刚刚开发了一种新的钢丝 
子午线轮胎，并通过一家全国连锁的折扣商店出售。因为该轮胎是一种新产品， Grear 公司的经理 
们认为是否保证一定的行驶里程数将是该产品能否被顾客接受的重要因素。在制定这种轮胎的里 
程质保政策之前，经理们需要知道轮胎行驶里程数的概率信息。 

根据对这种轮胎的实际路面测试，公司的工程师小组估计它们的平均行驶里程为^ = 36 500 
英里，里程数的标准差为 cr =5 000 o 另外，收集到的数据显示，行驶里程数符合正态分布应该是 
一个合理的假设。问题是有多大百分比的轮胎能够行驶超过40 000英里？换句话说，轮胎行驶里 
程大于40 000英里的概率是多少？通过计算图 6.6 阴影区域的面积，我们能够回答这个问题。 

当无=40 000时，我们有 

x-/m 40 000 -36 500 3 500 

Torn = Tooo = 





0 


0. 70 


注意： z =0 对应着 
x = jjl = 36 500 


注意： z =0. 70 对应着 
x = 40 000 


图 6. 6 Grear 轮胎公司的行驶里程分布 

现在参考图 6.6 的底部，我们看到在 Grear 轮胎正态分布中的％ = 40 000对应着标准正态分布 
的2=0.70。利用表6.1，我们看到均值和 z = 70之间的面积为0.258 0。再次参考图6.6,轮 

胎的正态分布中％ = 36 500和％=40 000之间的面积与上面的标准正态分布面积相同。因此， 
0.5000-0.258 0 = 0.2420 是 x 大于40000的概率。于是我们能够得出 结论： 大约有24.2%的 
轮胎行驶里程会超过40 000英里。 
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现在我们假设公司正在考虑一项质量保证政策，如果初始购买的轮胎没有能够使用到保证的 
里程数，公司将以折扣价格为客户更换轮胎。如果公司希望符合折扣条件的轮胎不超过10%,则 
保证的里程应为多少？这个问题在图 6. 7进行了说明。 

根据图 6. 7,处在均值和未知保证里程数之间的面积必须为40%。我们在表 6. 1查找 0. 400 
0 , 看到该面积大约在均值与小于均值 1.28 个标准差处之间，即 -1.28 是对应于公司在正态 
分布中保证里程数的标准正态随机变量值。为了得到对应于 -1.28 的里程数； c ， 我们有 



— 1. 28 


x - jbi = -1.28 cr 
x = jbi - 1 . 2 Scr 


由于 〆 = 36 500 和 o - = 5 000 

% = 36 500 — 1. 28 x 5 000 = 30 100 



图 6. 7 Grear 公司的折扣保证 


当保证设定在 30 000 英里时，符合保证条件的实际百分比为 9.68%。 

因此，30 100英里的质量保证将满足只有大约10%的轮胎需要折价更换的要求。也许，根据 
这一信息，公司将把它的轮胎里程保证设在30 000英里。 

我们再一次看到了概率分布在提供决策信息方面所起的重要作用。也就是说，只要对某一应 
用问题建立起了概率分布模型，就能够迅速而方便地取得有关问题的概率信息。虽然依据概率并 
不能直接提出决策建议，但它提供了可以帮助决策者更好地理解有关问题的风险和不确定性的有 
用信息。最终，这一信息能够帮助决策者制定出更好的决策。 
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方法 

8. 以图 6.4 为指导，画出均 值为从 =100且标准差为 cr = 10的正态随机变量％的曲线图。在横 
轴上标明数值70、80、90、100、110、120和 130。 

9. 某随机变量服从正态分布，均值从= 50,标准差5。 

a . 画出概率密度函数的正态曲线。在横轴上标明数值35、40、45、50、55、60和65，图 6. 4 
显示了正态曲线在均值前后3个标准差处（即35和65处）几乎与横轴相交。 

b . 随机变量取值介于45和55之间的概率是多少？ 

c . 随机变量取值介于40和60的概率是多少？ 

10. 画出标准正态分布图，在横轴上标明数值-3、-2、- 1、0、1、2和3。然后利用标准正态 
分布概率表计算下列概率。 

a . P (0^ z $ l)o 

b . P (0^ z $1.5) 0 

C. 0 

d . />(()< z <2. 5)。 

11. 给定 z 是标准正态随机变量，计算下列概率。 

a . P ( - 1 ^ 0 

b . P ( - 1. 5^ 0 

c . P { -2< z <0 ) o 

d . P ( -2. 5^ z ^0 ) o 
6 . P { _ 3< Z $0 )o 

12. 给定 z 是标准正态随机变量，计算下列概率。 

a . P (0^ z ^ O . 83 )o 

b . P (- 1.57 彡 z 彡 0)。 

c . P ( z > 44) o 

d . P ( z ^ -0. 23)。 

e . P ( z <1. 20) o 

f . P ( z ^ -0_71 ) o 

13^_ 给定 z 是标准正态随机变量，计算下列概率。 

a •/ >(-1.98 彡 NO . 49)。 
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b . P (0. 52矣 z ^ l . 22)。 

c. P( 一 1.75 矣 z 矣 - 1.04 )。 

14. 给定 z 是标准正态随机变量，计算下面各种情况下的 z 值。 

a . 0 和 z 之间的面积为0.475 0。 

b . 0和 z 之间的面积为 0. 229 1。 

c. z 右侧的面积为 0. 131 4 。 

d . z 左侧的面积为 0. 670 0。 

15. 给定 z 是标准正态随机变量，计算下面各种情况下的 z 值。 

飄 a . z 左侧的面积为0.2119。 

自测题 

b . - z 和 z 之间的面积为0.903 0。 

c. - z 和 z 之间的面积为 0.205 2 。 

d . z 左侧的面积为 0. 9948。 

e . z 右侧的面积为0.6915。 

16. 给定 z 是标准正态随机变量，计算下面各种情况下的 z 值。 

a . z 右侧的面积为0.01。 

b . z 右侧的面积为0.025。 

c. z 右侧的面积为 0.05 。 

d . z 右侧的面积为 0. 10。 

应用 

17. 美国成年男性的平均身高为5英尺9英寸 ( Astounding Averages ， 1995) 。假设标准差是3英 
寸，回答下列问题。 

a . 成年男性高于6英尺的概率是多少？ 

b . 成年男性低于5英尺的概率是多少？ 

c. 成年男性身高在5英尺6英寸和5英尺10英寸之间的概率是多少？ 

d . 成年男性不高于6英尺的概率是多少？ 

18. 订户阅读一份 《华 尔街曰报》的平均时间是 49 分钟 （ 77ie Wall Street Journal Subscriber 
Study, 1996 )。 假定标准差是 16 分钟，且阅读时间符合正态分布。 

a . 订户至少花1个小时读报的概率是多少？ 

b . 订户读报时间不超过30分钟的概率是多少？ 

c . 对于10%的读报时间最长的人士，他们花费了多少时间？ 

19. 得克萨斯州达拉斯市4月的平均降雨量为 3.5 英寸 （ TTieWoHdl / lZnwiac ， 2000)。假定降雨量服 
从正态分布，标准差为 0.8 英寸。 

a . 4月降雨量超过5英寸的概率是多少？ 
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b . 4月降雨量不足3英寸的概率是多少？ 

c . 如果某月的降雨量处于最高的10%概率范围内，则将该月归类为非常潮湿。要把某个4月 
份归类为非常潮湿的话，降雨量必须达到多少？ 

20. 根据调查， 77 ie Wall Street Journal Interactive Edition 的订户每周平均有 27 小时在工作中使用计 
算机 （ WSJ . com Subscriber Study , 1999) 。假定正态分布适用于该问题，标准差为8小时。 

a . 随机选择到的订户每周使用计算机工作少于11小时的概率是多少？ 

b . 多少百分比的订户每周使用计算机工作超过40小时？ 

c . 如果某人的使用时间在最高的20%概率范围内，则被归为频繁使用者行列。要把一个订户 
归为频繁使用者的话，他每周必须使用计算机多少小时？ 

21. —个人必须在 IQ 测试中得分达到最高的2%范围内，才有资格加入 Mensa ， 即国际高智商协 
会 （ US Airways Attache ， September , 2000)。如果人们的 IQ 得分服从正态分布，均值为100， 
标准差为15,要取得加入协会的资格必须得到多少分？ 


22. 根据劳工统计署的数据，1998年美国产业工人的平均周工资为 441.84 美元（77比研0似从 
manacy 2000)。假设得到的数据表明他们的工资服从正态分布，其标准差为90美元。 

a . 工人工资在400 —500美元之间的概率是多少？ 

b . 工人收入如果处于最高的20%概率范围内的话，他必须有多少收入？ 

c . 对于一个随机选择的工人，他的每周收入少于250美元的概率是多少？ 

23. 学院某门课程的期末考试所需时间服从正态分布，其均值为80分钟，标准差为10分钟。回 
答下列 问题： 

a . 考生在1个小时或更短时间内完成期末考试的概率是多少？ 

b . —名考生的完成时间超过60分钟但少于75分钟的概率是多少？ 

c . 假设一个班级有60名学生，考试时间为90分钟。你预期不能在规定时间内完成考试的学 
生有多少名？ 

24. 在8月和9月的12天当中，纽约股票交易所的股票日成交量（百万股）如下所示 Au - 
gust 7, 2000, September 4, 2000 及 September 11,2000) : 


917 

983 

1 046 

944 

723 

783 

813 

1057 

766 

836 

992 

973 


成交量的概率分布接近正态概率分布。 

a . 计算曰成交量的均值和标准差，作为总体均值和标准差的估计值。 

b . 某日成交量小于8亿股的概率是多少？ 
c ， 曰成交量超过10亿股的概率是多少？ 

d . 如果交易所想在5%的成交量最大交易日发布新闻，那么引发新闻的成交量是多少? 
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25. 1998年主要的联盟棒球比赛的平均票价为 11.98 美元（^/&4 7^町 ， November 11，1998)。加上 
食品、停车与纪念品支出，一个四口之家观看比赛的平均花费大约是 110.00 美元。假设正态 
分布适用于该问题，且标准差为 20. 00美元。 

a . 全家花费超过 100.00 美元的概率是多少？ 

b . 全家花费 90.00 美元或更低的概率是多少？ 

c . 全家花费在 80. 00—130. 00美元的概率是多少？ 


6.3 指数概率分布 


一种在描述完成任务所花费的时间方面十分有用的连续概率分布是 指数概率分布 (exponential 
probability distribution )。 指数随机变量能够用来描述诸如汽车清洗站的车辆到达间隔时间、装运一 
辆卡车所需时间、公路上严重缺陷之间的距离等等问题。指数概率密度函数 如下： 



作为指数概率分布的一个例子，假设 ： c = 在 Schips 装运码头装运一辆卡车所花费的时间，它 
服从指数分布。如果平均装车时间为15分钟 15) ，则恰当的概率密度函数为 



图 6. 8是这个概率密度函数的图形表示 o 


f ( x ) 



装运时间 ， 

图 6. 8 Schips 装运码头例子的指数概率分布 

计算指数分布的概率 

和任何连续概率分布一样，与某一区间相对应的曲线下面积给出了随机变量在该区间取值的 
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概率。在 Schips 装运码头例子中，装运一辆卡车花费6分钟或更短时间 U <6) 的概率被规定为图 
6.8 中从到％ =6区间内曲线下的面积。类似地，装运一辆卡车花费18分钟或更短时间％$ 
18的概率 是从％ =0到^ = 18区间内曲线下的面积。而装运一辆卡车费时在6分钟到18分钟之 
间(6<%<18)的概率就是从％=6到％ = 18区间内曲线下的面积。 


为了计算这些问题中的指数概率，我们使用下面的公式，它给出了指数随机变量取值小于或 
等于％ 的某个特定值（记作斯）的累积概率。 


指数 分布： 累积概率 




P ( x ^： xo ) = 1 _ e~ V/i 

(6.5) 


对于 Schips 装运码头例子，％ =装运时间，公式 (6. 5) 能够被表示为 


=1 -〆 15 

于是，装运一辆卡车花费6分钟以内时间的概率 PU $6) 为 

P (^;^6) =1 - e - 6/15 =0. 329 7 

图 6.9 显示了装车时间为6分钟以内的面积或概率。而装车时间为18分钟以内的概率尸 
U 彡 18) 为 


P (无矣 18) =1 - e " 18/15 =0. 698 8 

因此，装车时间介于6到18分钟的概率等于0,698 8 -0.329 7 = 0.369 1。任意其他区间的概率 
也可以通过同样的方法进行计算。 


fix) 



泊松分布与指数分布的关系 


在 5. 5节我们介绍过泊松分布是一种离散概率分布，它往往用于确定在一个特定的时间或空 
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间段内事件的发生次数。我们已知泊松概率函数为 


式中 m 为在一个区间内事件发生次数的期望值。 

连续的指数概率分布与离散的泊松分布存在关系。如果说泊松分布给出了每个区间事件发生 
次数的恰当描述，那么指数分布则描述了事件的间隔区间长度。 

为了说明这种关系，假设在1小时内到达清洗站的汽车数可以用泊松概率分布表示，其均值 
为每小时10辆汽车。于是泊松概率函数给出了每小时到达 x 辆汽车的概率为 


fix) 


We- 



因为平均到达数是每小时10辆汽车，则到达车辆的平均间隔时间为 


1小时 

~Tom 


= 0. 1小时/辆 


于是，描述到达车辆间隔平均时间的指数分布有均值 M = 0.1 小时/辆，故恰当的指数概率密度函 
数为 


fix ) = 



x/0. 


= 10e~ 10 



方法 

26. 考虑下面的指数概率密度 函数： f(x) x^Oo 

a . 计算 P ( x <6)。 
b _ 计算 P(x^4) 0 

c . 计算 P(x^6)o 

d . 计算 P (4^ ^^6) o 

27. 考虑下面的指数概率密度 函数： fix) =Y e ' X/ ^ x ^° 

a •给出 PU “) 的公式。 

b . 计算 P(x^2) 0 

c . 计算 P(x^3) 0 

d . 计算 P{x^5) 0 

e •计算 i °(2 矣 x $5)。 
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应用 

28. 《互联网杂志》监督互联网服务提供商 (ISP) 并对它们的业务表现提供统计数据。已知在免费 
的 ISP 那里下载一张欧洲网页的平均时间大约是 20 秒（ Internet Magazine , January , 2000) 。 假 
定下载网页的时间服从指数分布。 

a. 不到 10 秒下载一张网页的概率是多少？ 

b. 下载一张网页超过 30 秒的概率是多少？ 

c. 下载一张网页花费时间在 10 到 30 秒之间的概率是多少？ 

29. 车辆到达某特定集合点的时间间隔服从均值为 12 秒的指数分布。 

画出该指数概率分布的草图。 

自测题 

b. 车辆到达时间间隔在 12 秒以内的概率是多少？ 

c. 车辆到达时间间隔在 6 秒以内的概率是多少？ 

d. 车辆到达时间间隔在 30 秒以上的概率是多少？ 

30. 某种电子设备的寿命（小时）是一个服从下列指数概率密度函数的随机 变量： 

fix) =^e~ x/50 , x^O 


a . 它的平均寿命是多少？ 

b . 该设备在运转的前25小时内损坏的概率是多少？ 

c . 该设备在损坏前能够运转100小时以上的概率是多少？ 

31. Sparagowski & Associates 公司对快餐店外卖窗口的服务时间进行了调查。在麦当劳餐厅从购买 
到取得食品花费的时间平均是 2. 78分钟 （TTie Cincinnati Enquirer^ July 9, 2000) 。像这样的等待 
时间往往服从指数分布。 

a . 等待时间少于2分钟的概率是多少？ 

b . 等待时间超过5分钟的概率是多少？ 

c . 等待时间超过 2. 78分钟的概率是多少？ 

32. 根据 《 Barron’s 1998年主要读者调查》的数据，一个订户平均每年的投资交易次数是30次 
( http : // www . barronsmag . com , July 28, 2000) 。假定投资者一年内的交易次数服从泊松概 
率分布。 

a . 显示投资交易间隔时间的概率分布。 

b . 某个订户在1月份没有进行交易的概率是多少？ 

c . 某个订户两次交易的间隔时间在半个月以内的概率是多少？ 
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本章把对概率分布的讨论扩展到了连续随机变量。离散和连续概率分布的主.要区别在于计算 
概率的方法不同。对离散分布，概率函数 / U ) 给出了随机变量； c 取各个值的 概率； 对连续概率分 
布，我们则使用概率密度函数，也记作/(幻。概率密度函数不直接给出连续随机变量的概率值， 
其概率是由概率密度函数/(幻曲线下的面积给出。因为在单点上曲线下的面积为0,所以我们观 
察到连续随机变量取任意特定值的概率为0。 

我们详细介绍了三种连续概率分布——均匀概率分布、正态概率分布和指数概率分布。正态 
概率分布广泛应用于统计推断，并且在本书的其他部分有着广泛的应用。 


水语-义 


概率密度 函数： 用来计算连续随机变量概率的一种函数。某区间内概率密度函数曲线下的面积就 

表示连续随机变量在该区间取值的概率。 

均匀概率 分布： 如果随机变量在长度相等的每个区间内取值的概率相同，则它服从均匀概率 

分布。 

正态概率 分布： 一种连续概率分布，它的概率密度函数由均值#和标准差 cr 确定，其形状 

呈钟形 o 

标准正态概率 分布： 均值为0且标准差为1的一种正态分布。 

指数概率 分布： 一种连续概率分布，可用于计算完成任务所花费的时间等类问题。 


重妻公 



均匀概率密度函数 


正态概率密度函数 



x 在 b 

其他 


( 6 . 1 ) 


fix ) 


_ ± - 已 - ( x - M) W 

°yj27T 


( 6 . 2 ) 





标准正态分布的转换公式 
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指数概率密度函数 


指数 分布： 累积概率 



fix ) = 




P ( x^i ACo ) 


久多 0 jj> 0 



(6.3) 


(6.4) 


(6.5) 


种充絲 


33. —个经理从芝加哥调动到了亚特兰大，因此急需出售她在芝加哥的住房。她的雇主报价 
210000美元购买该房屋，不过这个报价将在周末到期。这位经理目前还没有得到更好的报 
价，但能够承受把房子留到下月出售。根据与经纪人的会谈，该经理认为她把房子保留到下 : 
个月出售的话，得到的价格将服从200 000美元一225 000美元之间的均匀分布。 

a . 如果她把住房保留到下个月出售，售价的概率密度函数的数学表达式是什么？ 

' b . 如果她把住房保留到下个月出售，她至少得到215000美元的概率是多少？ 

c . 如果她把住房保留到下个月出售，得到的房款少于210000美元的概率是多少？ 

d . 她是否应该保留住房到下个月出售？为什么？ 

34. 美国家庭所欠的债务有68%是住房抵押贷款或产权信贷 （Federal Reserve Bulletin ，January 
1997)。 已知户主年龄在 35 岁以下的家庭，其抵押贷款额的中位数是63000美元。假设这一 
年龄组的抵押债务额服从正态分布，其标准差为15 000美元。 

a . 该年龄组的抵押债务平均数额是多少？ 

b . 10%的最少债务家庭有多少抵押债务？ 

c . 抵押债务超过80000美元的家庭占多大百分比？ 

d . 5%的最高抵押债务超过了多少数额？ 

35. 摩托罗拉公司利用正态分布来确定一个生产工艺出产次品的概率以及次品数量的期望值 

( APICS — The Performance Advantage , July 1991)。假设某生产工艺的设计标准是产出10盎司 
重的产品，且工艺的均值为10。计算在下列情况下，1 000单位的产品中出现次品的概率以及 
次品数量的期 望值： 

a . 工艺的标准差为0.15,并且产品质量的控制范围设定在正负1个标准差以内。即如果该产 
品的单位重量低于 9. 85或高于 10. 15盎司的话，将被归为次品。 

b . 通过工艺设计改进，工艺标准差可以被减少到0.05。假设产品质量控制范围仍与上面的情 
况相同，即产品单位重量低于 9.85 或高于 10.15 盎司的话，将被归为次品。 
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c . 减少工艺的变异程度，并把产品质量控制范围设定在距离均值更多标准差的范围内有什么 
好处？ 

36. 美国航空公司737客机的平均小时运营成本为2 071美元 （TTie Tampa Tribune , February 17, 
1995)。 假定飞机的小时运营成本服从正态分布。 

a . 如果有11%的小时运营成本为1 800美元或更少，则运营成本的标准差是多少？ 

b . 737客机的小时运营成本在2 000和2 500美元之间的概率是多少？ 

c . 对于3%具有最低运营成本的飞机，其小时运营成本是多少？ 

37. High - Brite 牙膏的销售量被认为近似服从正态分布，均值为每周10 000只，标准差为每 
周1 500只。 

a . 在任意1周内销售超过12000只牙膏的概率是多少？ 

b . 为了使公司的库存能够满足每周需求的概率达到 0.95, 应生产多少只牙膏？ 

38. Ward Doering 自动销售公司正在考虑提供一项特殊的服务合同，以满足服务工作所要求的设备 

租赁总成本。根据经验，公司经理估计每年的服务成本近似服从正态分布，其均值为150美 
元，标准差为25美元。 

a . 如果公司提供给客户的服务合同每年收费200美元，那么任意一个客户的服务成本超过 
200美元合同价格的概率是多少？ 

b . 公司对每一份服务合同的期望利润是多少？ 

39. 1997年底和1998年初的亚洲金融危机被认为会导致大量进口廉价商品涌入美国市场，从而在 
美国引发严重的失业问题。据预测加利福尼亚州遭受的打击尤其严重。经济政策研究机构估 
计在加州的失业人数平均将达到126 681 ( St. Petersburg Times y January 24, 1998)。 假定加州的 
失业人数服从正态分布，其标准差是30 000。 

a . 加州失业人数在80 000—150000之间的概率是多少？ 

b . 加州失业人数少于50000人的概率是多少？ 

c . 截止值应设定为多少，才能使得失业人数不超过该值的概率达到 0.95? 

40. 假设某学院入学考试的成绩服从正态分布，其均值为450,标准差为100。 

a . 考试成绩在400—500之间的学生占多大百分比？ 

b . 假定某人的成绩是630分，有多大百分比的学生取得了比他高的成绩？成绩比他低的占多 
大百分比？ 

c . 如果某大学不招收成绩低于480分的学生，则参加考试的学生被该大学录取的百分比是 
多少？ 

41. 根据《广告时代》的数据，广告公司中女性文案作者的平均底薪要高于她们的男性同行。女性文 
案作者的平均底薪是67 000美元，而男性文案作者的平均底薪是65500美元 （ TTo / m / i ， 
July / August ^ OOO ) 。假设所有文案作者的薪金均服从正态分布，并且其标准差均为7000美元。 

a . 女性作者的收入超过75000美元的概率是多少？ 

b . 男性作者的收入超过75000美元的概率是多少？ 
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c . 女性作者的收入低于50000美元的概率是多少？ 

d . 女性作者要取得多少收入，才能高于99%的男性同行的收入？ 

42. 一台机器向容器填充某种特定产品。根据以往的数据，已知填充重量的标准差为 0.6 盎司。 

如果只有2%的容器填充重量低于18盎司，问该机器的平均填充重量是多少？也就是说 ， m 
必须等于多少？假设填充重量具有正态分布。 

43. —名学生在某大学的计算机中心使用一台计算机终端的时间（以分钟计）服从指数概率分布， 

其均值为36分钟。假定一名学生恰好在另一名学生刚开始在终端上工作时到达该终端。 

a . 第二名学生等待时间为15分钟以内的概率是多少？ 

b . 第二名学生等待时间在15分钟和45分钟之间的概率是多少？ 

c . 第二名学生不得不等待1个小时以上的概率是多少？ 

i 

44. 一条新的自动生产线平均每天发生2起故障，每天的故障数服从泊松概率分布。 

a . 故障的平均间隔时间是多少？ 

b . 作出表示故障间隔时间的指数概率密度函数。 

c . 两次故障间隔时间为1小时以上的概率是多少？ 

d . 该生产线能够无故障运转8个小时直至切换的概率是多少？ 

45. 某超市的结账柜台在两名结账顾客之间的空闲时间（以分钟计）服从指数概率分布，其均值为 
1.2 分钟。 

a . 作出该分布的概率密度函数。 

b . 在一名顾客结账后 0.5—1.0 分钟内下一个顾客到达的概率是多少？ 

c . 结账柜台空闲时间超过1分钟的概率是多少？ 

46. 某保险理赔办公室两次打入电话的时间间隔（以分钟计)具有如下的指数概率 分布： 

fix ) =0. 50 e - 0 30 % x^O 


a . 打入电话的平均时间间隔是多少？ 

b . 时间间隔为30秒以内的概率是多少？ 

c . 时间间隔为1分钟以内的概率是多少？ 

d . 5分钟以上没有电话打入的概率是多少? 


附录 6. 1利用 Minitab 计算连续概率分布 

我们以 Grear 轮胎公司问题为例，说明利用 Minitab 软件计算连续概率的方法。在 Grear 轮胎公 
司问题中，轮胎的行驶里程服从 m = 36500 且 a =5000 的正态概率分布。需要解决的一个问 题是： 
轮胎行驶里程超过40 000英里的概率是多少？ 

对于连续概率分布， Minitab 能够给出累积概率，也就是说， Minitab 给出了随机变量取值小于或 
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等于某个特定常数的概率。在 Grear 轮胎行驶里程数问题中， Minitab 能够被用来确定行驶里程小于 
或等于40000英里的累积概率(本例的特定常数是40000)。得到累积概率以后，我们必须用1减去 
它，以确定行驶里程超过40 000英里的概率。 

在使用 Minitab 计算概率之前，在工作表的一列中必须输人特定常数值。对 Grear 轮胎行驶里 
程数问题，我们把特定常数40 000输人 Minitab 工作表的列1。使用 Minitab 计算正态随机变量取 
值小于或等于40 000的累积概率的步骤 如下： 

步骤 1 .选择 Calc 下拉 菜单； 

步骤 2. 选择 Probability Distribution 选项； 

步骤 3. 选择 Normal 选项； 

步骤 4 •当 Normal Distribution 对话框出现时： 

选择 Cumulative probability ； 

在 Mean 框中输入 36 500; 

在 Standard deviation 框中输人 5 000 ； 

在 Input column 框中输入 C 1 (这一列含有40 000) ; 

点击 OK 。 

在用户点击 OK 以后， Minitab 将显示出正态随机变量取值小于或等于40 000的累积概率为 
0.758 0。由于我们感兴趣的是轮胎行驶里程超过40000英里的概率，则所求的概率为：1 - 
0. 758 0 = 0. 242 0。 

提出的第二个问 题是： Grear 公司应设置多大的里程保证，以确保符合保证条件的轮胎不超过 
10%?在这里，给出了概率，我们需要找到随机变量的对应值。 Minitab 使用一种相反的计算路线 
来得到与某个给定的累积概率相关的随机变量值。首先，我们必须在 Minitab 工作表的某一列中 
(如 C 1) 输人累积概率。在本例中，给出的累积概率为0.10。然后，仍然使用上面列出的 
Minitab 程序的前3个步骤；在步骤4，我们选择 Inverse cumulative probability 来代替 Cumula¬ 
tive probability, 再完成该步骤的剩下内容。 Minitab 最后将显示出保证里程为30 100英里。 

Minitab 还能够计算其他连续概率分布的概率，包括指数概率分布。为了计算指数概率分布， 
需要执行前面列出的正态概率分布的步骤，并在步骤3选择 Exponential 选项。步骤4也与前面所 
列的步骤相同，除了不需要输入标准差。累积概率与逆累积概率的输出也和正态概率分布的相同。 


附录 6. 2利用 Excel 计算连续概率分布 

Excel 能够计算几种连续概率分布的概率，包括正态概率分布与指数概率分布。在本附录中， 
我们描述怎样利用 Excel 来计算任意正态概率分布的概率。指数概率分布和其他连续概率分布的 
计算方法与我们对正态概率分布的描述相类似。 

让我们回到 Grear 轮胎公司问题，其中的轮胎里程用 M = 36 500和 o * = 5 000的正态概率分布 
来描述。假设我们关心的是轮胎里程超过40 000英里的概率。 
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Excel 的 NORMDIST 函数提供了正态概率分布的累积概率。该函数的一般形 式为 ： NORMDIST 
( x ， 綷， a ， cumulative ) o 对于第四个自变量，如果需要的是累积概率的话，取 TRUE 。 于是，为了 
计算轮胎里程小于或等于40 000英里的累积概率，我们把如下的公式输入 Excel 工作表的任意一 
个单元格内： 


= NORMDIST ( 40000，36500，5000, TRUE ) 

然后， 0.758 0 将出现在输入公式的那个单元格内，表示轮胎里程小于或等于40 000英里的 
累积概率是0.7580。因此，轮胎里程超过40 000英里的概率为1 -0.758 0 = 0.242 0。 

Excel 的 N 0 RMINV 函数利用相反的计算过程来得到对应于给定的累积概率的； c 值。例如，假 
定我们想要知道公司应该提供多少里程保证，以使得符合保证条件的轮胎不超过10%。我们把如 
下的公式输人 Excel 工作表的任意一个单元 格内： 

= NORMINV (0. 1,36500,5000) 

然后，30 092将出现在输入公式的那个单元格内，表示某个轮胎不能达到30 092英里的概率 
是 0. 10。 

计算指数概率的 Excel 函数是 EXPONDIST ， 可以直接使用它来进行计算。但是，如果用户需 
要帮助以确定自变量的适当值，他可以利用 Excel 函数向导(参见附录 2. 2)。 




抽样和抽样分布 


统计 实例: MEAD 公司 
7.1 Electronics Associates 公司的抽样问题 
7.2 简单随机抽样 
从有限总体中抽样 
从无限总体中抽样 
7.3 点估计 
7.4 抽样分布介绍 

1.5 x 的抽样分布 
S 的数学期望 
5的标准差 
中心极限定理 

EAI 抽样问题中 S 的抽样分布 
5抽样分布的实际值 
5抽样分布和样本容量之间的关系 

7.6 p 的抽样分布 
f 的数学期望 
P 的标准差 

P 抽样分布的形式 
P 抽样分布的实际值 
7.7 点估计量的性质 
无偏性 
有效性 
一致性 

7.8 其他抽样方法 

分层随机抽样 
整群抽样 
系统抽样 
方便抽样 
判断抽样 
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MEAD 公司 

代顿，俄亥俄州 

Mead 公司拥有超过16000名职工，生产品种众 
多的纸张和森林产品。它在32个国家进行跨国经营， 
公司的客户遍布98个国家。 Mead 公司在纸张产品方 
面居于领先地位，年生产能力达到180万吨。公司的 
产品包括课本用纸、铜版纸、饮料包装纸和办公用 
纸。公司的内部顾问组利用抽样方法提供了各种信 
息，使得公司的生产率显著提高并保持了竞争力。 

例如，公司保持了大量的林地储备，可以为公司 
的许多产品提供原料树木。经理们需要公司的木材林 
和森林的可靠而准确的信息，以评估公司满足未来原 
材料需求的能力。森林的现有储量如何？森林过去的 
生长速度是多少？未来的计划生长速度是多少?如果回 
答了这些重要问题，公司的经理们就能够制定包括树 
木的长期种植和采伐时间表在内的未来计划。 

公司是怎样获取到它所需要的巨量森林储备信 
息的呢？答 案是： 从遍布森林的采样点收集到的数 
据为了解公司所拥有树木的总体特征打下了基础。 
为了确定采样点，首先要按照位置和树种把森林储 
备分成三部分。然后，利用地图和随机数，公司的 
分析人员在每部分森林中选取 1/5— 1/7英亩的树 
木作为随机样本。因此，采样点是公司林务员收集 
数据和了解森林总体特征的地方。 


* 作者感谢 Mead 公司的 Edward P. Winkofsky 博士提供 
了该统计实例。 



对其森林储备所做的随机抽样使得 Mead 公司能够满足未 
来的原材料需要 。 © Larry Goldstein/Tony Stone. 

公司内的全体林务员都参与了各自区域的数据 
收集过程。他们两人一组定期地收集每个采样点中 
每棵树的信息，收集到的样本数据被输入公司的森 
林永续存货计算机系统。该计算机系统生成的报告 
包括了大量的频数分布信息，它们概括了树木种 
类、目前的森林储量、过去的森林生长速度以及计 
划的未来生长速度和储量。抽样和有关样本数据的 
统计汇总共同提供了对公司的木材林和森林进行有 
效管理所必需的报告。 

在本章你将学习简单随机抽样和样本的选择方 
法。另外，你还将了解到像样本均值和样本比例这 
样的统计量是如何用于估计与其对应的总体均值和 
总体比例的。本章还会介绍抽样分布的重要概念。 


在第1章，我们已经定义了统计研究中的两个重要 方面： 总体和样本。 这里再复述 一次： 

1. 总体是由 研究对象全体构成的集合。 

2. 样本 是总体的一个子集。 

统计推 断的目的是利用样本信息建立对总体性质的估计和检验对总体性质的假设。我们从引 
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用两个例子入手展开论述，在这两个例子中，所进行的抽样向决策者提供了关于总体的信息。 

1. 某轮胎制造商开发了一种新型轮胎，它的设计里程数超过了公司目前的轮胎产品。为了估 
计新轮胎的平均里程数，制造商选取一个包括120条新轮胎的样本进行检测。检测结果显 
示样本均值为36 500英里。于是，新轮胎总体平均里程数的估计值为36 500英里。 

2. 一个政党的成员正在考虑支持某位候选人竞选美国参议员，因此该党的领导人想要估计支 
持该候选人的登记选民比例。但要与登记选民中的每一位都进行接触，从时间和成本来看 
都是不现实的。于是，他们选取了一个由400名登记选民组成的样本，其中有160人支持 
该候选人。因此登记选民总体中支持该候选人的比例的估计值为160/400 = 0.40。 

上面的例子说明了如何利用抽样和样本结果估计总体特征。我们注意到在轮胎里程的例子 
中，要收集轮胎寿命的数据必须把每条检测轮胎使用至报废。很明显对总体中的每条轮胎都进行 
检测是不可行的，抽样检测是获取所需轮胎里程数据的惟一可行途径。而在选举例子中，接触总 
体中的每位选民在理论上是可能的，但是时间和成本都不允许这样做。于是，选取登记选民的样 
本进行调查是更好的办法。 

这两个例子说明了人们使用样本的一些原因。握是应该注意，样本结果提供的只是总体特征值 
的估计值。也就是说，我们不能期望36500英里的样本均值恰好等于总体所有轮胎的平均里程，我 
们也不能期望确实有40%的登记选民支持这位候选人。我们之所以这样说是因为样本只包含了一部 
分总体。尽管如此，如果使用了恰当的抽样方法，样本结果仍可以对总体特征给出一个“良好”的 
估计。但是我们究竟希望样本结果好到什么程度呢？幸运的是，统计方法能够回答这个问题。 

本章我们将说明如何使用简单随机抽样从总体中选择样本，然后还将介绍如何利用从简单随 
机样本中取得的数据计算总体均值、总体标准差和总体比例的估计值。另外，我们还将描述抽样 
分布的重要概念。正如我们所说，拥有恰当的抽样分布知识能够使我们对样本结果的优良性作出 
度量。在本章最后一节，我们将讨论一些在实践中常用的其他简单随机抽样方法。 

样本均值是总体均值的估计值，样本比例是总体比例的估计值。使用这些估计值 

时，会存在一些抽样误差或正、负值。本章的关键是介绍能够对抽样误差的大小作出概 

率描述的统计方法。 


7. 1 Electronics Associates 公司的抽样问题 



CD 光盘数据 
EAI 


Electronics Associates 公司 ( EAI ) 的人事主管被分配了一项任务，制作公司2500 
名经理的简况。在简况中需要确定的特征包括经理们的年薪以及完成了公司管理培训 
计划的经理所占的比例。 

把2 500名经理作为该项研究的总体，我们通过查阅公司的人事记录就能够知道 
每个经理的年薪和培训情况。本书所附光盘储存的一个数据文件包含了总体所有 
2 500名经理的这些信息。 
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使用第3章给出的公式，我们能够计算出年薪数据的总体均值和总体标 准差： 

总体 均值 ： /x = 51 800美元 
总体标准差： <7 =4 000美元 

培训状况的数据显示，在2500名经理中有1 500人已经完成了公司的培训计划。令/>表示 
总体中已完成培训计划的经理所占的比例，我们看到 p = l 500/2 500=0.60。 

参数 ( parameter ) 是总体的数值特征。总体的平均年薪 = 51 800美元）、年薪的总体标准差 
(j = 4000 美元）和已完成培训计划的总体比例 (p = 0. 60) 都是 EAI 经理总体的参数。 

现在，假设我们无法在公司的数据库中方便地获取所有 EAI 经理的必要信息。这可能是由于 
新近雇用的员工记录尚未输人计算机，也可能由于员工记录中只有年薪信息（未记录培训状况）， 
或者因为只有一部分岗位的雇员记录收人了计算机。不管具体是什么原因，事实往 往是： 要收集 
并且处理总体内所有元素的信息要么不可能，要么极其昂贵。这时，往往要使用来自样本的信息 
来估计有关的总体参数。 

往往从样本中收集信息能够使得成本 h 从总体收集信息有大幅度的降低，尤其是当 

收集信息需要进行个人接触时更是如此。 

我们现在需要考虑的问 题是： 公司的人事主管如何使用经理的样本而不是总体内的全部2 500 
名经理来取得有关总体参数的估计值。假设使用一个由30名经理组成的样本，显然，制作30名 
经理的简况所花费的时间与成本要比制作全部经理的简况少得多。如果人事主管能够保证由30名 
经理组成的样本可以提供2 500名经理总体的充分信息的话，使用样本将比使用整个总体更划算。 
现在我们从考虑如何确定包括30名经理的样本开始，探索使用样本进行 EAI 研究的可能性。 


7.2 简单随机抽样 

有若干种方法都可以用于从总体中选择样本，其中应用最普遍的一种是 简单随机抽样 (simple 
random sampling ) 。简单随机样本的定义和选取简单随机样本的方法都要依赖于总体是有限的还是 
无限的。由于 EAI 抽样问题研究的是一个包括2 500名经理的有限总体，故我们首先考虑的是从 
有限总体中抽样。 


从有限总体中抽样 

来自/ V 容量有限总体的容量为71的简单随机样本定义 如下： 

简单随机祥本（有眼总体） 

如果有限总体中每一个容量为 n 的可能样本都有相同的被选取概率，这样选择出的样本就 
称为容量为71的简单随机样本（有限总体）。 
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从有限总体中选取简单随机样本的一种方 法是： 每次只选择一个元素，并且每次选择时，要 
使留在总体内的每个元素都有相同的被选中概率。以这种方式抽取的 n 个元素将满足来自有限总 
体的简单随机样本定义。 

为了从 EAI 经理的有限总体中选择一个简单随机样本，我们首先给每个经理分配一个号码。 
例如，我们按照经理们的姓名列在 EAI 人事档案中的顺序，能够把号码1 一2 500分配给每个经 
理。接下来，我们查阅表 7.1 的随机数表，在表第一行中的每一个数字： 6, 3, 2,…都是具有同 
样发生概率的随机数。由于 EAT 经理总体名单中的最大号码是2500,由4个数字组成，故我们将以 
4个数字为一组从表中选择随机数。虽然我们可以从表的任意位置，沿着任选的方向系统地移 
动来选择随机数，但这次我们从表 7.1 的第一行开始，自左向右地选择。这些4位随机数是 


6 327 

7. 1 随机数表 

1 599 

8 671 

7 445 

1 102 

1 514 

1 807 


63 271 

59 986 

71 744 

51 102 

15 141 

80 714 

58 683 

93 108 

13 554 

79 945 

88 547 

09 896 

95 436 

79 115 

08 303 

01 041 

20 030 

63 754 

08 459 

28 364 

55 957 

57 243 

83 865 

09911 

19 761 

66 535 

40 102 

26 646 

60 147 

15 702 

46 276 

87 453 

44 790 

67 122 

45 573 

84 358 

21 625 

16 999 

13 385 

22 782 

55 363 

07 449 

34 835 

15 290 

76 616 

67 191 

12 777 

21 861 

68 689 

03 263 

69 393 

92 785 

49 902 

58 447 

42 048 

30 378 

87 618 

26 933 

40 640 

16 281 

13 186 

29 431 

88 190 

04 588 

38 733 

81 290 

89 541 

70 290 

40 113 

08 243 

17 726 

28 652 

56 836 

78 351 

47 327 

18 518 

92 222 

55 201 

27 340 

10 493 

36 520 

64 465 

05 550 

30 157 

82 242 

29 520 

69 753 

72 602 

23 756 

54 935 

81 628 

36 100 

39 254 

56 835 

37 636 

02 421 

98 063 

89 641 

64 953 

99 337 

84 649 

48 968 

75 215 

75 498 

49 539 

74 240 

03 466 

49 292 

36 401 

45 525 

63 291 

11 618 

12 613 

75 055 

43 915 

26 488 

41 116 

64 531 

56 827 

30 825 

70 502 

53 225 

03 655 

05 915 

37 140 

57 051 

48 393 

91 322 

25 653 

06 543 

06 426 

24 771 

59 935 

49 801 

11 082 

66 762 

94 477 

02 494 

88 215 

27 191 

20 711 

55 609 

29 430 

70 165 

45 406 

78 484 

31 639 

52 009 

18 873 

96 927 

41 990 

70 538 

77 191 

25 860 

55 204 

73 417 

83 920 

69 468 

74 972 

38712 

72 452 

36 618 

76 298 

26 678 

89 334 

33 938 

95 567 

29 380 

75 906 

91 807 

37 042 

40 318 

57 099 

10 528 

09 925 

89 773 

41 335 

96 244 

29 002 

46 453 

53 766 

52 875 

15 987 

46 962 

67 342 

77 592 

57 651 

95 508 

80 033 

69 828 

90 585 

58 955 

53 122 

16 025 

84 299 

53 310 

67 380 

84 249 

25 348 

04 332 

32 001 

96 293 

37 203 

64 516 

51 530 

37 069 

40 261 

61 374 

058 15 

06 714 

62 606 

64 324 

46 354 

72 157 

67 248 

20 135 

49 804 

09 226 

64 419 

29 457 

10 078 

28 073 

85 389 

50 324 

14 500 

15 562 

64 165 

06 125 

71 353 

77 669 

91 561 

46 145 

24 177 

15 294 

10 061 

98 124 

75 732 

00 815 

83 452 

97 355 

13 091 

98 112 

53 959 

79 607 

52 244 

63 303 

10 413 

63 839 

74 762 

50 289 
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也可以使用计算机生成的随机数来选择随机样本。 Excel 在它的工作表中提供了一个 
能够生成随机数的函数。 


因为表中的数字都是随机的，所以这些4位数字岀现的概率或可能性相等。 

现在我们能够使用这些4位随机数给总体内的每个经理提供一个被选入随机样本的同等 
机会。第一个数字6327大于2500,它不等于总体中任意一名经理的号码，于是放弃该数字。第 
二个数宇1 599介于1 一2 500之间，因此为简单随机样本选择的第一个经理在 EAI 经理名单上的 
编号是1 599。继续进行这个选择过程，我们在确定选入编号为1 102，1514和1 807的经理之 
前，忽略数字8671和7 445。该过程将一直持续下去，直到我们选出30名 EAI 经理组成一个 
简单随机样本为止。 

在我们选出30名经理以前，已经被选入样本的随机数可能会在表中再次出现，由于我们不想 
把一个经理多次选入样本，故略过样本中已经岀现过的随机数，因为与该数对应的经理已经进 
入了样本。这种选择样本的方法称为无放 回抽样 (sampling without replacement ) 。如果我们在选择 
样本时，可以多次把同一个随机数选人样本，某些经理可能会两次或多次出现在样本中，我们 
做的就是放 回抽样 （sampling with replacement )。 放回抽样也是确定简单随机样本的一种有效方 
法，不过，还是无放回抽样的应用更为普遍。当我们提到简单随机抽样时，总是假定抽样是无 
放回的 o 


从无限总体中抽样 

许多商务和经济中的抽样情况涉及到有限总体，但是在某些情况下，总体或者是无限的，或 
者特别大，以至于在实践中必须作为无限总体来处理。在从无限总体抽样时，我们必须使用新的 
简单随机样本定义。另外，因为无法将无限总体内的元素一一列岀并编号，我们必须以不同的方 
法选择样本。 


在实践中，如果所研究的总体涉及到一个正在进行的过程，则列出或统计总体的每 
个元素是不可能的，这时通常把总体视作无限的。 

假设我们想要估计某个快餐店在上午 lh 30 —下午1:30午餐时间内顾客从点餐到拿到食品所 
需的平均时间。如果我们把所有可能的顾客消费作为总体，那么列岀所有可能的消费是不现实 
的。实际上，如果我们定义总体是在午餐时间有可能发生的所有顾客消费，我们可以认为总体是 
无限的。我们的任务是从这个总体中选择一个包括 ri 名顾客的简单随机样本。来自无限总体的简 
单随机样本定义 如下： 
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简单随机祥本（无眼忘体） 

如果样本的选择过程满足下面两个条件，这个样本就是来自无限总体的简单随机样本。 

1. 选岀的每个元素都来自同一个总体。 

2. 对每个元素的选择都是独立的。 

对于选择快餐店顾客消费的简单随机样本问题，由于任意一次顾客消费都发生在上午11: 
30—下午1:30午餐时间内，这段时间快餐店都在正常的条件下营业，所以我们发现满足了定义的 
第一个条件。而通过确保对某位顾客的选择不会影响到对其他任意顾客的选择，定义的第二个条 
件也得到了满足，即对顾客的选择是独立的。 

一家著名的快餐店就在这种条件下进行了一次简单随机抽样。设计该抽样方法的基础是这样 
一个 事实： 一些顾客持有三明治、饮料和法式炸薯条等食品的优惠购物券。当一位顾客岀示优惠 
券时，他的下一位顾客将被选入样本。因为顾客岀示优惠券的行为是随机且独立的，所以公司的 
抽样计划满足来自无限总体的简单随机样本的两个条件。 

由于不可能列出无限总体，所以随机数选择方法不能用于无限总体。这时，必须对 
样本选择方法进行特殊的修改，以独立地选择每个元素，并且避免给予某种类型的元素 
以较高的选中概率，从而引起选择偏差。 





1. 有限总体往往被定义为组织成员名册、学生 
注册记录、信用卡账户清单、存货产品编号 
等等。无限总体往往被定义为一个持续进行 
的过程，总体内的元素由在相同条件下无限 
运行的过程产生。在这种情况下，要列出所 
有的元素是不可能的。例如，由所有可能 
制造出的部件构成的总体，由所有可能的 
顾客消费构成的总体，由所有可能的银行 
交易构成的总体等等，都可以被归类为无 
限总体。 

2. 从 iV 容量有限总体中能够选择容量为 ri 的 
不同简单随机样本的个数为 ^^ yy 。 


在该公式中， iV ! 和； I !是在第4章讨论过的 
阶乘计算。对于 EAI 问题， A ^ = 2500, n = 
30,这个公式的计算结果显示出，大约有 
2. 75 x 10 69 个不同的简单随机样本由30名 
EAI 经理组成。 

3. 计算机也能够生成随机数以选择随机样本。 
例如，给定 EAI 总体的2 500名经理，我们 
就能够使用 Excel 的函数 = RANDBETWEEN 
(1,2 500) 来生成介于 1—2 500之间的随机 
数。然后按照我们使用表 7.1 随机数的同 
样方法，可以使用这些计算机生成的随机 
数确定由30名经理组成的简单随机样本。 
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方 法 


考虑一个由标记分别为 A 、 B 、 C 、 D 、 E 的五个元素构成的有限总体。从中可以选择10 



个容量为2的简单随机样本。 

自测题 

a . 从 AB 、 AC 开始列出这10个样本。 

b . 采用简单随机抽样时，容量为2的每个样本被选到的概率是多少？ 

c . 假定随机数 1 对应于 A ， 随机数2对应于 B , 依此类推。列出使用随机数8 

753 2选择的容量为2的简单随机样本。 


0 5 


2. 假定某个有限总体拥有350个元素。使用下面5位随机数的后三位数 (601, 022, 448 ，…） ，确 
定选入简单随机样本的前4个元素。 

98 601 73 022 83 448 02147 34 229 27 553 84 147 93 289 14 209 


应用 

3. 《财富》公布了美国500家最大工业公司的销售额、利润、资产、股东权益、市场价值 
以及每股收益数据 （77 ie /^ rtoi € 500 , 2000)。假定你想从《财富》500强名单中选择10 

自测题 

家公司组成简单随机样本，使用表 7.1 第9行的后3位数，并且从554开始按列向下读 
取，确定所选入的10家公司的编号。 

4. 其股票被广泛持有的10家公司为 （ i / S / lTWay , September 6, 2000) : 


AT&T 

America Online 
Cisco Systems 
General Electric 
Intel 


IBM 

Johnson & Johnson 

Microsoft 

Motorola 

Pfizer 


a . 假设为了对大公司的公共商业实践进行深入研究，需要在这些公司中选择5家组成随机样 
本。从表 7.1 的第一个随机数开始，按列向下读取，使用一位的随机数来选择用于此项研究 
的包含5家公司的简单随机样本。 

b . 根据评注第2条，从这10家公司的名单中能够选择多少个容量为5的简单随机样本？ 


5. —个学生组织想要估计支持在选修课上实行强制“及格/不及格”记分制度的学生所占的比 
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例。从注册办公室可以得到本学期注册的 645 名学生的名单和住址，使用表 7.1 第 10 行的 3 
位随机数，按行自左向右移动，利用简单随机抽样方法选择前面的 10 名学生。 3 位随机数从 
816, 283 和 610 开始。 

6. 由美国人口普查局出版的《县与市数据册》，列出了全美 3139 个县的信息。假定有一项研究要 
随机选取 30 个县收集数据。使用表 7.1 最后一列的四位随机数确定对应于样本前 5 个县的编 
号。忽略表上的第一位数，从四位随机数 9945, 8364 和 5702 开始。 


7. 假定我们想要从某城市的 372 名实习医生中选取 12 人作为简单随机样本。医生的姓名可以从 
一个地方医疗机构得到。使用表 7. 1 第 8 列的 5 位随机数来选取样本中的 12 名医生。在每个 
五位随机数中忽略前两位数字。该过程从随机数 108 开始，按列向下选择。 


8. 下表列出了 2000 赛季开始阶段 NCAA 橄榄球联赛的前 25 支球队 （Sports Illustrated ， August 14, 
2000) o 使用表 7.1 第 9 列的随机数并且从 13 554 开始，选择 6 支球队组成简单随机样本。在 
你的选择过程中从球队 13 开始，使用第 9 列每一行的前二位数字。问哪 6 支球队会被选为简 
单随机样本？ 


1. Nebraska 

14. Tennessee 

2. Florida State 

15. TCU 

3. Alabama 

16. Purdue 

4. Michigan 

17. Mississippi 

5. Wisconsin 

18. USC 

6. Kansas State 

19. Penn State 

7. Georgia 

20. Southern Miss 

8. Clemson 

21. Illinois 

9. Texas 

22. Ohio State 

10. Miami 

23. Oklahoma 

11. Florida 

24. Colorado State 

12. Virginia Tech 

25. Colorado 

13. Washington 



9 . 《商业周刊》提供了 895 只共同基金的业绩数据和年度评分 (Business Week ， February 3, 1997 ) 。 
假设为了对共同基金的业绩表现进行更多研究，需要从 895 只共同基金中选择 12 只组成简单 
随机样本。使用表 7.1 第 4 列的随机数，从 51 102 开始选择 12 只共同基金。你的选择过程从 
共同基金 511 开始，采用第 4 列每一行的前三位数。问简单随机样本中的 12 只共同基金的编 
号分别是多少？ 

10. 指出下列总体应该被认为是有限的还是无 限的： 

a. 加利福尼亚州的全部登记选民。 

b. TV-M 公司的宾夕法尼亚 Allen 镇工厂生产的所有电视机。 
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C. 某邮购公司处理的所有订单。 

d . 打入某地区警察局的所有紧急电话。 

e . Fibercon 公司在5月17日第二班次生产的所有元件。 


7.3 点估计 

我们已经描述了如何选择简单随机样本，现在仍回到 EAI 问题中。假设已经选出30名经理 
组成了简单随机样本，其对应的年薪和培训状况数据列示在表 7. 2中。我们使用标记心等表 
示样本中第一位经理的年薪，其他依此类推。而参加过管理培训计划就在“是否完成管理培训计 
划”这一列里用“是”表示。 

表 7. 2由30名 EAI 经理组成的简单随机样本的年薪与培训状况 


年薪(美元） 

是否完成管理 

培训计划 

年薪(美元） 

是否完成管理 

培训计划 

=49 094. 30 

是 

咖=51 766.00 

是 

x 2 =53 263.90 

是 

幻 7 = 52 541.30 

否 

x 3 =49 643. 50 

是 

咖= 44 980. 00 

是 

^4 =49 894. 90 

是 

^19 =51 932. 60 

是 

x 5 =47 621，60 

否 

初。= 52 973. 00 

是 

私= 55 924. 00 

是 

X 21 =45 120.90 

是 

^7 =49 092. 30 

是 

如=51 753. 00 

是 

对=51 404. 40 

是 

*23 = 54 391.80 

否 

^9 =50 957. 70 

是 

戈 24 = 50 164. 20 

否 

^, o =55 109. 70 

是 

^25=52 973.60 

否 

^11 =45 922. 60 

是 

^=50 241.30 

否 

x , 2 = 57 268.40 

否 

奶 7 = 52 793. 90 

否 

X13 =55 688. 80 

是 

^28 = 50 979. 40 

是 

幻 4 =51 564. 70 

否 

物= 55 860. 90 

是 

如=56 188. 20 

否 

炝 0 = 57 309. 10 

否 


为了估计总体参数的值，我们需要计算对应的样本特征， 即样本统计置 (sample statistic )。 例 
如，为了估计 EAI 经理年薪的总体均值和总体标准差 （ T ， 我们使用表 7. 2的数据计算对应的样 
本统 计量： 样本均值^和样本标准差 s 。 利用第3章介绍的样本均值和样本标准差公式，得到样 
本均值为 

x =-^- 554 42 - = 51 814. 00美元 
n 30 

样本标准差为 
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^繫虛 = 3 347. 72美元 

另外，通过计算样本中回答“是”的经理比例，我们还能够估计总体中已完成管理培训计划 
的经理所占的比例。表 7. 2显示在样本的30个经理中有19人已经完成了管理培训计划，因此， 
用 f 表示的样本比例为 

p = = 0. 63 

它用做总体比例 p 的估计值。 

通过上面的计算过程，我们进行了被称为 点估计 的统计过程。在点估计中，我们使用样本数 
据计算出样本统计量的值作为对总体参数的估计。利用点估计的术语，我们把 S 作为总体均值 
的点 估计量 (point estimator ), 把 s 作为总体标准差 cr 的点估计量，把^作为总体比例 p 的点 估计 
量。 在一个特定样本中得到的 L s 或^的实际数值被称为参数的点 估计值 (point estimate )。 于是对 
于30名 EAI 经理的样本，51 814. 00美元是 g 的点估计值，3 347. 72美元是 cr 的点估计值， 0.63 
是/>的点估计值。表 7. 3总结了样本的结果并且对点估计值与总体参数的实际值进行了比较。 


表 7. 3 从包含 30 名经理的简单随机样本取得的点估计值 


总体参数 

参数值 

点估计量 

点估计值 

/ i = 总体平均年薪 

51 800. 00美元 

样本平均年薪 

51 814.00 美元 

cr = 年薪的总体标准差 

4 000, 00美元 

5 =年薪样本标准差 

3 347. 72美元 

p =已经完成管理培训 

0. 60 

P = 已经完成管理培训 

0. 63 

计划的总体比例 


计划的样本比例 



正如表 7. 3所显示的，没有一个点估计值准确地等于对应的总体参数。因为在进行估计时， 
我们用样本数据代替了整个总体的统计数据，所以我们能够预期到这个偏差。总体参数与其对 
应的无偏点估计之差的绝对值被称为抽样误差 （sampling error )， 对于样本均值、样本标准差 
和样本比例，抽样误差分别为 U - a |， 和 b - pj 。 因此，对于 EAI 样本，本均值的抽样 
误差是 |51 814-51 800| =14美元，样本标准差的抽样误差是 j 3 347. 72 - 4 000. 00| = 652. 28美 
元，样本比例的抽样误差是 1 0.63-0.60| =0.03。 

抽样误差是采用了总体的一个子集(样本）而没有采用整个总体的结果。 

在这里由于总体参数已知，故我们能够计算抽样误差。但是在实际抽样应用中，因为总体参 
数的值是未知的，因此我们就无法准确地计算抽样误差。在后面的内容中将会说明为了对抽样误 
差的大小进行概率描述，统计学者将如何分析样本数据。 

* 从技术上讲，只有当点估计量无偏时，点估计与总体参数之差的绝对值才被称为抽样误差。此处的点估计量 Gd ， P 是无 
偏的。 
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在对点估计量的讨论中，我们用5表示样本 
均值，用 f 表示样本比例。基于样本比例也是一 
种样本均值的事实，我们采用了 P 的符号。例 
如，假设在容量为 n 的样本中数据值分别为 
Xl y X2, . . . , X n9 '对于第/个观察值，当我们 
感兴趣的特征出现时，令^=1;当我们感兴 


趣的特征未出现时，则令^=0。然后用样本 
均值的公式2 A //1 计算样本比例。就像用祥本 
均值^估计总体均值一样，我们在字母上加横 
线以提醒读者， f 是对总体比例的估计。也有 
一些教科书用/代替 f 来表示样本比例。 



方法 


11. 下列数据来自一个简单随机 样本: 


BE 


自测题 


8 10 7 


10 


a . 总体均值的点估计是多少？ 

b . 总体标准差的点估计是多少? 


14 


12. 某项调查询问了 一个由150人组成的样本，结果收到的回答中有75人为“是’’，55人为 
“否”，还有20人未发表意见。 


a . 回答“是”的总体比例的点估计是多少？ 

b . 回答“否”的总体比例的点估计是多少? 


应用 


13. 5个月的销售数据给出了如下信息: 



自测题 


月份： 

销 售量: 


94 


2 3 4 

100 85 94 


5 

92 


a . 总体每月平均销售量的点估计是多少？ 

b . 总体标准差的点估计是多少？ 
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14. 在一项调查中，一个由 784 名 9— 14 岁的儿童所组成的样本被询问他们得到父母零花钱的原 
因 (Consumer Reports ， January 1997) 。 回答如下： 


零花钱来源 频数 

只有补贴 149 

劳动奖励加上补贴 219 

只有劳动奖励 251 

没有零花钱 * 165 

总计 784 


a . 总体中零花钱来源只有补贴一项的儿童所占比例的点估计是多少？ 

b . 总体中零花钱来源只省劳动奖励一项的儿童所占比例的点估计是多少？ 

c . 考虑所有来源，总体中能够从父母那里得到零花钱的儿童所占比例的点估计是多少？ 

15. 《电器杂志》给出了家用电器预计使用寿命的估计值 （ Today , September 5, 2000) 。 由 
10 个 VCR 组成的样本提供了如下的使用寿命数据（年） ： 

6.5 8.0 6.2 7.4 7.0 8.4 9.5 4.6 5.0 7.4 

a . VCR 产品总体平均使用寿命的点估计是多少？ 

b . VCR 产品使用寿命的总体标准差的点估计是多少？ 

16. 美国交通部报告了主要航线准时或提前到达班次的统计结果 （Associated Press , September 8, 
2000) 。 假设要根据一个包括 1400 个航班的样本数据来估计所有航班准时到达的比例。如果 
有 1 117 个航班准时抵达，那么在总体中准时抵达的航班所占比例的点估计是多少？ 

17. —项 Louis Harris 民意测验调查了 1 008 名成年人，以了解人们对经济的看法 (Business Week ， 


August 7, 2000) o 人们的回答如下： 

595 人 

经济正在增长 

332 人 

经济保持在原有水平 

81 人 

经济正在衰退 


建立下列总体参数的点 估计： 

a . 所有成年人中认为经济正在增长的比例。 

b . 所有成年人中认为经济保持在原有水平的比例 

c. 所有成年人中认为经济正在衰退的比例。 


7.4 抽样分布介绍 


在上一节，我们使用由30名 EA 1 经理组成的简单随机样本，对所有 EAI 经理总体的年薪均 
值和标准差以及总体中已完成了公司管理培训计划的经理所占的比例分别建立了点估计。假设我 
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们另外选择一个包括30名 EAI 经理的简单随机样本，对第二个样本的数据进行分析，我们得到 
了下面的 信息： 


样本均值 X = 52 669. 70美兀 
样本标准差5 = 4 239. 07美元 
样本比例 p =0.70 

这些结果说明由第二个样本得到的 L s 和^的值与第一个样本不同。一般地，第二个简单随 
机样本与第一个简单随机样本包含的元素不会完全相同。让我们来想像一下，我们把选择简单随 
机样本的同样过程一再地进行下去，每次都计算 L s 和^的值。以这种方式，我们能够得到这些 
点估计量的大量不同数值。为了说明这种情况，我们重复进行 EAI 问题中的简单随机抽样过程， 
直到取得500个包括30名经理的样本以及对应的 s 和^的值。表 7.4 列出了一部分结果，而 
表 7. 5则列出了 500个^值的频数和相对频数分布。图 7. 1是 S 值的相对频数直方图。 

表 7. 4 从 500 个包括 30 名 EAI 经理的简单随机样本中得到的 h s 和？ 值 


样本编号 

样本均值 （W 

样本标准差 

样本比 例斤） 

1 

51 814.00 

3 347. 72 

0. 63 

2 

52 669. 70 

4 239. 07 

0. 70 

3 

51 780. 30 

4 433. 43 

0.67 

4 

51 587.90 

3 985. 32 

0. 53 

500 

51 752. 00 

3 857. 82 

0. 50 


表 7. 5 从 500 个包括 300 名 EAI 经理的简单随机样本中得到的频数分布 


平均年薪(美 元} 

频数 

相对频数 

49 500. 00 —49 999. 99 

2 

0. 004 

50 000. 00 —50 499. 99 

16 

0. 032 

50 500. 00 —50 999. 99 

52 

0. 104 

51 000.00 —51 499.99 

101 

0. 202 

51 500.00 —51 999. 99 

133 

0. 266 

52 000. 00 —52 499. 99 

110 

0. 220 

52 500. 00 —52 999. 99 

54 

0. 108 

53 000. 00 —53 499. 99 

26 

0. 052 

53 500. 00 —53 999. 99 

6 

0.012 


总计 500 

1.000 
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相 

对 

频 

数 


50 000 51 000 52 000 53 000 54 000 

S 值 

图 7. 1 从 500个容置为30 的简单随机样本得到的 ^ 值的相对频数直方图 

在第5章我们定义了随机变量是对试验结果的数值描述。如果我们把每次简单随机样本的选 
择过程都当做一次试验的话，样本均值5就是对试验结果的数值描述。因此样本均值 i 是一个随机 
变量。就像其他随机变量一样， i 具有均值或者说是数学期望、方差和概率分布。由于^取不同的 
可能值是选择了不同的简单随机样本的结果，所以 i 的概率分布被称为 i 的抽 样分布 (sampling dis¬ 
tribution) 。 通过抽样分布的有关知识和性质，我们能够对样本均值 5 与总体均值 A 的接近程度进 
行概率描述。 

抽样分布的概念是本章最重要的内容之一，对以后各章节的理解，在很大程度上要 
依赖于对本章介绍的抽样分布的理解和应用能力。 


让我们回到图 7.1 上来。我们需要列举出每一个可能的由30名经理组成的样本，并计算每个 
样本的均值以完全确定 S 的抽样分布。500个^数据的直方图仅给出了该抽样分布的一个近似表 
示。根据这个近似表示，我们观察到该分布具有钟形的外观。我们注意到在各个5数值之间的最 
大差距超过了 2 000美元。但是我们也注意到^值的最大集中区域就在总体均值 m = 51 800美元附 
近，并且500个 i 值的平均值也在总体均值附近。我们将在下一节更加全面地描述5抽样分布的 
这个性质。 

500个样本标准差 s 的数值和500个样本比例？的数值也用相对频数直方图的形式汇总在图 
7.2 和图 7.3 中。与5的情形一样， s 和^都是对简单随机样本的结果提供数值描述的随机变量。 
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2 600 3 000 3 400 3 800 4 200 4 600 5 000 5 400 

s 值 

图 7. 2 从 5W 个容置为 30 的简单随机样本得到的 s 值的相对频数直方图 


如果从总体中把每一个容量为30的样本都选择出来，并计算每个样本的 s 和？的值，所得到的概 
率分布将分别被称为 s 的抽样分布和^的抽样分布。500个样本值的相对频数直方图，图 7.2 和图 
7.3, 分别给出了这两类抽样分布的一般外形特点。 


0.32 0.40 0. 48 0.56 0.64 0.72 0.80 0. 88 



图 7. 3 从 500 个容量为 30 的简单随机样本得到的^值的相对频数直方图 



0 5 0 5 0 5 0 )5 
4 3 3 2 2 1 1 o 
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相对频数 
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在实践中，我们通常只从总体中选择一个简单随机样本。在本节我们把抽样过程重复了 500 
次，只是为了说明有许多不同的样本都是可能的，并且不同的样本产生了样本统计量 S 、 s 和 P 的 
不同数值。任意一个样本统计量的概率分布被称为该统计量的抽样分布。在 7. 5节我们将介绍5 
抽样分布的性质。而在 7.6 节，我们将说明^抽样分布的性质。 


7. 5 ^的抽样分布 


用样本 S 均值对总体均值 y 进行推断是最常用的统计学方法之一。这个方法的过程如图 7. 4 
所示。每重复一次该过程，我们能够预期将得到不同的样本均值5数值。样本均值5所有可能值 
的概率分布被称为样本均值^的抽样分布。 

^的抽祥分布 

S 的抽样分布是样本均值 S 的所有可能值的概率分布。 

本节的目的是描述 S 抽样分布的性质，包括 S 的均值或者说是数学期望、^的标准差以及 S 抽 
样分布的形状或形式。利用 S 抽样分布的知识，我们在使用^估计 / t 时能够对涉及到的抽样误差 
进行概率描述。首先我们从考虑所有可能值的均值，即 S 的数学期望开始。 



图 7. 4 利用样本均值推断总体均值的统计学过程 


^的数学期望 


在 EAI 抽样问题中我们看到，简单随机样本不同导致了样本均值 S 取不同的数值。由于随机 
变量^有许多可能数值，故我们往往想知道由不同简单随机样本所产生的 S 所有可能值的平均值。 
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随机变量5的平均值也就是 i 的数学期望。我们令表示 S 的数学期望， m 表示我们抽样所在的 
总体均值。能够证明对于简单随机抽样，五(0和 m 是相等的。 


S 的数学期望 






E ( x ) = ji 

(7.1) 

式中 E ( x )— 

的数学 期望； 




一总体均值。 




^的数学期望等于从总体中抽取样本的总体均值。 


这个结果说明，对于简单随机抽样， 5 的数学期望等于总体均值。在 7.1 节我们看到 EAI 经 
理的总体平均年薪为 /x= 51 800 美元，于是根据公式 (7.1), EAI 研究中所有可能样本均值的数学 
期望也是 51 8 ⑻美元。 


x 的标准奎 


我们首先来定义^抽样分布的标准差。在讨论中我们使用下面的 符号: 

0^=$抽样分布的标 准差； 

(T - 总体标准差； 
n - 样本容量； 

# =总体容量。 


能够证明，对于简单随机抽样， S 的标准差要依赖于总体是有限的还是无限的。5标准差的两 
个数学表达式 如下： 


x 的标准差 

有限总体 

无限总体 



In - n ( a - \ 

(Tz ~ \ i L ^ ^ 1 __ ■ 1 

CT 

(TZ — __ 

(7.2) 


^ ViV-ll ^ 1 



比较 (7. 2) 中的这两个表达式，我们看到在有限总体情况下需要系数 ^ N - nV ( N - l ), 而无 
限总体则不需要该系数。该系数通常被称 为有限总体修正系数 (finite population correction factor ) 。在 
许多实际的抽样问题中，我们发现要研究的总体虽然是有限的，但容量很大，而样本容量则相对较 


小。这时，有限总体修正系数 ■- - I ) 接近于1。结果是，在有限总体 S 标准差的值与 
无限总体5标准差的值之间的差别变得可以忽略不计，这样，即使总体是有限的，的也是 S 
标准差的良好近似。这个观察结果导出了计算5标准差的一般指导或经验 法则： 
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使用下面的表达式〗计算的标准差 


该公式要适用，只 有当： 

1. 总体是无限的，或者 

2. 总体虽然是有限的，但样本容量小于或等于总体容量的5%，即 7 i // V <0.05。 

在 n // V >0.05 的情况下，应该使用公式 (7.2) 中的有限总体表达式来计算除非特别指 
出，在本书中我们总是假定总体容量较大，有 n / N ^ O . 05,能够使用公式 （7.3) 来计算的。 

现在，我们回到 EAI 研究上来，确定30名 EAI 经理样本产生的所有可能样本均值的标准 
差。在 7.1 节，我们看到年薪数据的总体标准差为 = 4 000 c 该问题中的总体是有限的，容量 
N = 2 500 o 但是由于样本容量为30,我们有 zi /7 V = 30/2 500 =0.012。根据公式 (7. 3) 的经验法 
则，我们可以忽略有限总体修正系数并计算^的标准差 如下： 


y[~n 


(7.3) 


a 



_ 4 000 
一 ] 


= 730. 30 


稍后我们将看到的值有助于确定样本均值与总体均值的偏离程度。由于^在计算可能存在的 
抽样误差方面所起的作用，它被称为均 值的标准误差 (standard error of the mean ) 。 

中心极限定理 

确定 ^ 抽样分布特征的最后一步是确定[概率分布的形式。我们来考虑两种 情况： 总体分布未 
知和已知总体分布为正态分布。 

当总体分布未知时，我们需要依靠统计学中最重要的定理 之一： 中心极限定理 （cemml limit 
theorem ) 。中心极限定理在 S 抽样分布中的应用如下： 


中心极限定理适用于任何总体。因此，即使总体分布未知，它仍然能够描述5的抽 
样分布。 


中心扱跟定理 

在从总体中选取容量为/ I 的简单随机样本时，如果样本容量较大的话，能够 用正态概率分 
布来近似样本均值^的抽样分布。 

图 7.5 显示了中心极限定理是怎样作用于三个不同总体的。图的第一格显示岀每个总体都不 
是正态的。但是注意，当样本容量增加时， S 的抽样分布开始发生了什么变化。当样本容量为2 
时，我们看到^的抽样分布开始呈现出与总体分布不同的外形。当样本容量为5时，我们看到这 
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总体分布 


总体 I 




jc 值 


总体 n 



总体 DI 


%值 



%值 


的抽样分布 
n=2) 


A 






值 





值 


的抽样分布 
n = 5) 





值 



值 


的抽样分布 
n = 30) 


值 


lil 


值 


值 


图 7. 5 三个总体的中心极限定理图示 


三个抽样分布都开始呈现出钟形外观。最后，容量为30的样本显示，这三个抽样分布都近似为正态 
分布。于是，对于容量足够大的样本，^的抽样分布可以用正态概率分布近似表示。不过，样本容量 
必须要达到多大，我们才能够使用中心极限定理呢？统计学者通过研究各种总体在不同样本容量下 
的 S 抽样分布，回答了这个问题。一般的统计实践假定，对于大多数的应用，当样本容量达到30或 
30以上时，就能够用正态概率分布来近似表示5的抽样分布。实际上，在样本容量达到30或30以 
上时，就假定它满足了中心极限定理的大样本条件。这个结果非常重要，我们有必要重申 一遍： 
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当样本容量较大时，=的抽样分布可以由正态概率分布近似表示。我们规定简单随机样本 
的大样本条件为样本容量达到30或30以上。 

当总体分布未知时，中心极限定理是确定^抽样分布形式的关键。但是，我们可能还会遇到一些 
总体被假定或认为具有正态概率分布的抽样情况。这时，下面的结果确定了5的抽样分布 形式： 

当总体具有正态概率分布时，对于任何样本容量 J 的抽样分布都具有正态概率分布。 

总之，如果我们使用较大 （n 多 30) 的简单随机样本，中心极限定理使我们能够用正态概率 
.分布来近似 S 的抽样分布。当简单随机样本的容量较小 （/i<30) 时，只有当我们能够假定总体具 
有正态概率分布时， S 的抽样分布才能被认为是正态的。 

eai 抽样问题中 s 的抽样分布 

在 EAI 研究中，我们已经得到£；⑺=51 800，仍= 730.30。因为我们使用的是一个包括30 
名经理的简单随机样本，中心极限定理使得我们能够用如图 7. 6所示的正态概率分布近似 S 的抽 
样分布。 



= 730. 30 


51 800 



图 7. 6 包括30名 EAI 经理的简单随机样本平均年薪的 S 抽样分布 


5抽样分布的实际值 

当选取一个简单随机样本，并使用样本均值 S 的数值估计总体均值/I的数值时，我们不能期 
望样本均值准确地等于总体均值。正如前面所讲，样本均值^与总体均值 g 的数值之差的绝对 
值： IS-gl 被称 为抽样误差。 我们对 S 的抽样分布之所以感兴趣，其实际原因是它能够对抽样误 
差的大小提供概率描述。为了说明 S 抽样分布的这种应用，我们再回到 EAI 问题中来。 

假设人事主管认为，如果样本均值距离总体均值在500美元以内，那么就可以接受以样本均 
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值来估计总体均值。但是，要完全保证样本均值距总体均值在500美元以内又是不可能的。的 
确，表 7.5 和图 7.1 显示，在500个样本均值中有一部分与总体均值之间的差距超过了 2000美 
元。所以我们必须按照概率术语来考虑人事主管的要求，即人事主管关心的是如下 问题： 由30名 
EAI 经理组成的简单随机样本的样本均值距总体均值在500美元以内的概率是多少？ 

由于我们已经确定了 S 抽样分布的性质（见图7.6)，我们就使用该分布来回答这个概率问题。 
参考图 7.7, 人事主管询问的是样本均值介于51 300 — 52300 美元之间的概率。如果样本均值 S 
的数值在该区间内，那么 S 的数值必定距总体均值在500美元以内。图 7.7 抽样分布中的阴影面 
积给出了本问题的恰当概率。因为抽样分布是正态的，均值为51 800,标准差为 730. 30,我们能 
够使用标准正态概率分布表来计算这个概率。在 S = 51 300处，我们有 

51 300 - 51 800 
~~73030^ = - 0 . 68 

査找标准正态概率分布表，我们得到 z =0 与 z = -0.68 之间的面积是 0.251 8。对于5 = 52 300, 
经过类似的计算，我们得到 z = 0 与 +0.68 之间的面积也是 0.251 8。于是，样本均值的数值 
介于51 300 — 52 300之间的概率为 0.251 8+0.251 8 = 0.503 6。 


的抽样分布 



面积 =0.251 


面积 =0. 251 8 


51 300 51 800 


52 300 


图7, 7 样本均值距总体均值在500美元以内的概率 


以上的计算说明，30名 EAI 经理组成的简单随机样本的样本均值$距总体均值在500美元以 
内的概率为0.5036。因此，样本均值距总体均值超过500美元的概率为1 -0.503 6 = 0.496 4。 
换句话说，由30名 EAI 经理组成的简单随机样本只有一半的可能使样本均值距离总体均值在可 
接受的500美元范围以内。也许应当考虑更大的样本容量，我们通过研究样本容量与 S 的抽样分 
布之间的关系来探索这个概率。 


S 的抽样分布能够提供样本均值5与总体均值 M 接近程度的概率信息。 
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X 抽样分布和样本容量之间的关系 

假设在 EAI 抽样问题中，我们选取了 100名经理而不是原来的30名，直观上，随着更大的 
样本容量提供了更多的数据，基于 n = 100 的样本均值对总体均值的估计应该能够比30人的样本 
均值所提供的总体均值估计更加优良。为 r 说明其优良的程度，我们来考虑样本容量与^的抽样 
分布之间的关系。 

首先我们注意到无论样本容量如何，总有五 (3= m 。 因此^所有可能值的平均值等于总体均 
值与样本容量 ri 无关。但是，注意均值的标准误差与样本容量的平方根有关。当 
样本容量增加时，均值的标准误差将减少。当 n = 30 时， EAI 问题的均值标准误差为 730. 30。当 
样本容量增加到 n = 100 时，均值的标准误差将减少到 


(TI = 


a ^ 4 000 
yj~n VlOO 


= 400 


n = 30 时和 n = 100时的5抽样分布都显示在图 7. 8中。由于 n = 100 时的抽样分布具有更小的标 
准差，此时 S 的数值变异程度较小，因此比 n = 30 时的^值更接近总体均值。 



图 7. 8 n = 30名 EAI 经理与 n = 100名 EAI 经理时简单随机样本的^抽样分布的相互比较 


我们能够利用 n = 100时的5抽样分布来计算由100名 EAI 经理组成的简单随机样本的样本均 
值距总体均值在500美元以内的概率。由于抽样分布是正态的，均值为51 800,标准差为400, 
我们可以使用标准正态概率分布表计算这个概率。在5 = 51 300处(见图 7. 9)，得到 

51 300 - 51 800 = _i 25 
400 • 

查找标准正态概率分布表，我们得到 z = 0 与_1. 25之间的面积是0.3944。对5 = 52 300,经 
过类似的计算，我们看到样本均值的数值介于51 300 — 52 300之间的概率为 0.394 4 +0.394 4 = 
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户51 800 ' 

51 300 52 300 


图 7. 9包括100名 EAI 经理的简单随机样本的样本均值距总体均值在500美元以内的概率图 

0.788 8。因此，随着把样本容量从30增加到100人，样本均值距总体均值在500美元以内的概 
率也从 0. 503 6增加到 0. 788 8。 

该讨论的重点是当样本容量增加时，均值的标准误差减少。因此，随着样本容量的增加，样 
本均值距总体均值在某一特定距离内的概率也相应增加。 



1. 在得出 EAI 问题的 i 抽样分布的过程中，我 
们利用了已知总体均值 m = 51 800和总体标 
准差 cr =4000 这一事实。但一般说来，确 
定 S 抽样分布所需的总体均值 M 和总体标准 
差 cr 的数值将是未知的。在第8章，我们 
将说明当从和 o ■未知时，如何使用样本均 
值 S 和样本标准差 


2. 对中心极限定理的理论证明要求样本中的各 
个观察值相互独立。对于无限总体和进行放 
回抽样的有限总体，所得到的样本满足该条 
件。虽然中心极限定理没有直接要求从有限 
总体的抽样是放回的，但在一般的统计应用 
中只有当总体容量较大时，才能够使用中心 
极限定理。 



方法 ’ 

18. 某总体的均值为200，标准差为50。从中选取一个容量为100的简单随机样本，并且使用样 
本均值估计总体均值。 
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a . 5的数学期望是多少？ 

b . 5的标准差是多少？ 

c . 说明$的抽样分布。 

d . 5的抽样分布表明了什么？ 

19. 某总体的均值为200,标准差为50。假设从中抽取一个容量为100的简单随机样本， 
并使用5估计弘。 

a . 样本均值距总体均值在±5以内的概率是多少？ 

b . 样本均值距总体均值在±10以内的概率是多少？ 

20. 假定总体标准差为0^=25。对于样本容量分别为50，100, 150和200的样本，计算其均值的 
标准误差当样本容量增加时，均值标准误差的大小将如何变化？ 

21. 假设某总体的标准差^ = 10,从中抽取一个容量为50的简单随机样本。计算下面每种情况下 
的均值标准误差的数值(如果合适的话，使用有限总体修正系数）。 

a . 总体容量无限。 

b . 总体容量为# = 50 000。 

c . 总体容量为# = 5000。 

d . 总体容量为# = 500。 

22. 某总体的均值为400,标准差为50,总体的概率分布未知。 

a . 研究者使用分别包括10, 20, 30或40个元素的简单随机样本来收集有关总体的数据。在 
哪一个样本容量下，我们可以用正态概率分布来描述5的抽样分布？请解释。 

b . 说明在适用正态概率分布的例子中5的抽样分布。 

23. 某总体的均值为100,标准差为16。对于下面的每个样本容量，样本均值距总体均值在±2以 
内的概率是多少？ 



jd . n =400 o 

e . 使用较大样本容量的优点是什么？ 

应用 

24. 参考 EAI 抽样问题。假设抽取的简单随机样本包括60名经理。 

a . 当简单随机样本的样本容量为60时，画出5的抽样分布简图。 

b . 如果简单随机样本的样本容量增加到120， S 的抽样分布将发生什么变化？ 

c . 当样本容量增加时，你能够对5抽样分布的变化作出什么样的一般描述？这样的一般化概 
括符合逻辑吗？请解释。 
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25. 在 EAI 抽样问题中（见图7.7)，我们说明了对于 n = 30,样本均值距总体均值在士500 
美元以内的概率为0.5036。 

a . 当样本容量增加到60时，5距总体均值在500美元以内的概率是多少？ 

b . 当样本容量增加到120时， S 距总体均值在500美元以内的概率是多少？ 

26. 在美国出售的常规汽油的平均价格为每加仑 1.20 美元 （ 77 ie Energy Information Administration , 
March 3, 1997)。 假定总体的每加仑平均价格为 / Lt = 1.20,总体标准差为 （7= 0. 10。假设选取50 
个加油站组成简单随机样本，使用从它们那里收集到的数据计算样本的平均每加仑汽油价格。 

a . 以5表示50个加油站的样本平均每加仑汽油价格，说明样本均值5的抽样分布。 

b . 由简单随机样本得出的样本均值距样本均值在 0.02 美元，总体均值在 0.02 以内的概率是 
多少？ 

c . 由简单随机样本得出的样本均值距样本均值在 0.01 美元，总体均值在 0.01 以内的概率是 
多少？ 

27. 根据美国大学考试程序委员会报告， SAT 分数的总体均值为 / x = 1 017 ( The New York Times , 
2000 Almanac ) 0 假定总体标准差为 o * = 100。 

a . 由一个包括 75 名学生的简单随机样本得出的样本平均 SAT 分数距总体均值在10分以内的 
概率是多少？ 

b . 由一个包括75名学生的，简单随机样本得出的样本平均 SAT 分数距总体均值在20分以内的 
概率是多少？ 

28. 市场营销专业毕业生的平均起始年薪为34000美元（: Time , May 8,2000)。假定对于市场菅销专 
业的毕业生总体，平均起始年薪为 /z = 34000 美元，标准差为 <7 = 2 000。 

a . 对于样本容量分别为30, 50, 100, 200和400的市场营销专业毕业生的简单随机样本，其 
样本均值距总体均值在: 1 250美元以内的概率分别为多少？ 

b . 在试图估计总体均值时，较大样本容量的好处是什么？ 

29. 亚特兰大一套两卧室公寓的平均月租金为982美元 （ Me , September 1998)。假定总体均值为 
982美元，总体标准差为210美元。 

a . 由一个包括40套两卧室公寓的简单随机样本得出的样本平均月租金距总体均值在士 100美 
元以内的概率是多少？ 

b . 由一个鸟括40套两卧室公寓的简单随机样本得出的样本平均月租金距总体均值在士25美 
元以内的概率是多少？ 

c . 讨论 ( a ) 和 ( b ) 中的结果。 

30. 一种新式单身住宅的总体平均价格为166 500美元 （ New One-Family Houses Sold , U . S . Bureau of 
the Census , 1997)。 假定总体标准差为 42 0 ⑻美元，样本中包括100套新式单身住宅。 

a . 显示样本容量为100套新式单身住宅的样本平均价格抽样分布。 

b . 该样本的平均价格距总体均值在10 000美元以内的100套新式单身住宅概率是多少？ 

c . 对于距离值5 000美元、2 500美元和1000美元，重复 ( b ) 中的问题。 
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d . 为了在±2500美元或±1000美元的误差以内估计总体平均价格，你有什么建议? 


31. 据《商业周刊》报道，它的订户为购买新车而计划花费的平均值为27 1⑻美元 Wee 左， 

Subscriber Profile ， 1996) 。假定《商业周刊》订户总体的平均计划购车价格为 /x = 27 100美 
元，标准差为 tr = 5200 美元。 

a . 对于一个由30名订户组成的简单随机样本，其样本平均计划购车价格距总体均值在1000 
美元以内的概率是多少？ 

b . 对于一个由50名订户组成的简单随机样本，其样本平均计划购车价格距总体均值在 
1 000美元以内的概率是多少？ 

c . 对于一个由100名订户组成的简单随机样本，其样本平均计划购车价格距总体均值在 
1 000美元以内的概率是多少？ 

d . 如果要求样本均值距总体均值在1_美元以内的概率至少为0.90，你推荐的样本容量是 
30, 50还是 100? 

32. 为了估计4000名员工总体的平均年龄，抽取40名员工组成简单随机样本。 

a . 在计算均值的标准误差时，你是否使用有限总体修正系数？请解释。 

b . 如果总体标准差为 tr = 8.2 岁，使用和不使用有限总体修正系数分别计算标准误差。当 
n / iV 矣 0.05 时，忽略有限总体修正系数合理吗？ 

c . 员工的样本平均年龄距总体平均年龄在±2岁以内的概率是多少？ 


7.6 p 的抽样分布 

在许多商务和经济应用中，我们使用样本比例？来对总体比例 p 进行统计推断。图 7.10 描绘 
了该过程。每重复一次该过程，我们可以预期会取得不同的样本比例^值。样本比例^的所有可 
能值的概率分布被称为样本比例^的抽样分布。 



图 7. 10 使用样本比例推断总体比例的统计过程 
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P 的抽祥分布 

P 的抽样分布是样本比例的所有可能值的概率分布。 

为了确定样本比例^与总体比例 P 的接近程度，我们需要理解^抽样分布的 特征： P 的数学期 
望、^的标准差与^抽样分布的形状。 

p 的数学期望 


S 的数学期望， S 吓所有可能值的平均值，能够表达 如下: 


P 的数学期望 

E { p ) = p 

(7.4) 

式中 E ( p ) ―^的数学 期望； 
p 总体比例。 




公式 (7. 4) 显示出 P 所有可能值的平均值等于总体比例 P 。 回忆在 7.1 节，我们注意到 EAI 总 
体的 p =0.60, p 表示总体中参加过公司管理培训计划的经理所占的比例。于是， EAI 抽样问题 
中 f 的数学期望为0.60。 


p 的标准差 

p 的标准差又被称为 比例的标准误差 (standard error of the proportion ) 0 和样本均值 S —样， p 的 
标准差依赖于总体是有限的还是无限的。计算^标准差的两种情况下的表达式如下： 

P 的标滾差 

无限总体 

^ 

比较公式 (7. 5) 中的两个表达式，我们看到两者惟一的不同是有限总体修正系数 彻 - n )/( N _ l ) 0 
和样本均值^的情况相同，如果有限总体的容量与样本容量相比较大的话，那么有限总体和 
无限总体表达式之间的差别可以忽略。我们遵循在计算样本均值的标准误差时曾经使用过的经验 

法则，即如果总体是有限的且 n / A ^0.05, 我们使用％= Vp ( l - p )/ n ; 但是如果总体是有限的 
且 n // VX ).05 的话，就应该使用有限总体修正系数，如公式 (7.5) 所示。除非特别注明，在本书 
中我们总是假定总体容量相比样本容量较大，因此没有必要使用有限总体修正系数。 

我们知道在 EAI 研究中参加过管理培训计划的经理的总体比例为 p =0.60。 因为 n/N = 
30/2 500=0.012,我们可以忽略有限总体修正系数来计算 f 的标准差。对于包括30名经理的简 
单随机样本，为 


有限总体 
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o-p 


= V s 


(1 - p ) — /0. 60(1-0.60) 


n 


30 


= 0. 089 4 


P 抽样分布的形式 

现在我们已知^的均值和标准差，下一步就需要考虑多抽样分布的形式。对于^应用中心极限 
定理产生了下面的 结果： 

当样本容量较大时，^的抽样分布可以用正态概率分布近似表示。 

对于 i 在满足下列条件时，可以认为样本容量 较大： 

np^5 
n( 1 - p)^5 

在 EAI 抽样问题中，我们知道总体内参加过管理培训计划的经理所占比例为 p =0. 60。在简 
单随机样本的容量为30人时，我们有叩 = 30 x 0.60 = 18 且 n ( l - p ) =30 x 0.40 = 12。因此， f 
抽样分布可以用正态概率分布来近似，如图 7. 11所示。 



0.60 


E(p) 

图 7. 11参加过管理培训计划的经理所占比例^的抽样分布 

p 抽样分布的实际值 

当我们选择简单随机样本并且使用样本比例^的值来估计总体比例 p 的值时，我们预期存在 

着一些抽样误差。这时，抽样误差是样本比例 f 与总体比例 /) 之差的绝对值。我们可以利用 P 抽 
样分布的实际值对抽样误差进行概率描述。 

假设在 EAI 问题中，人事主管想要知道 f 的值距离总体比例在 0.05 以内的概率是多少。即样 
本比例 f 介于 0.55—0. 65之间的概率是多少？图 7. 12阴影部分的面积显示了这个概率。利用 
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图 7. 12 EAI 抽样问 题的？ 抽样分布 

p 的抽样分布能够被均值为0.60、标准差为％ = 0.089 4的正态概率分布近似表示这一事实，我们 
得到对应于^ = 0.55 的标准正态随机变量的 z 值为 z =(0. 55-0. 60)/0. 089 4= -0.56。查找标准 

正态概率分布表，我们看到^ = 0与 -0.56 之间的面积是 0.212 3。因此，样本比例 f 距总体 
比例 p 在 0. 05以内的概率为 0. 212 3 + 0. 212 3 = 0. 424 6。 

如果我们把样本容量增加到100,比例的标准误差相应变为 


(Tp = 


/0. 60(1 -0. 60) 
V 100 


= 0. 049 0 


对于样本容量为100名 EAI 经理的样本，样本比例 f 的值距总体比例在 0.05 以内的概率可以 
用同样方法计算出来。由于抽样分布能够用均值为0.60,标准差为 0.049 0 的正态分布近似，故 
我们能够使用标准正态概率分布表计算这一概率。在^ = 0. 55处，可得 z = (0. 55 -0. 60)/0. 049 0 = 
-1.02。査找标准正态概率分布表，我们看到 z = -1.02 与 z =0 之间的面积是0.346 1。类似 
地，在 ^=0.65 处， z =0 与 z = 1.02 之间的概率也是 0.346 1。因此，如果样本容量从30增加到 
100的话，样本比例^总体比例 P 在 0. 05以内的概率也增加到 0. 346 1 +0. 346 1 =0. 692 2。 



方法 

33. 从比例为 p =0.40 的总体中抽取一个容量为100的简单随机样本。 

a . f 的数学期望是多少？ 

b . f 的标准差是多少？ 

c . 显示^的抽样分布。 

d . p 的抽样分布说明了什么？ 
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34 总体的比例为0.40。从中抽取一个容量为200的简单随机样本并使用样本比例？来估 

it 雜 比例。 

a . 样本比例距总体比例在 ±0.03 以内的概率是多少？ 

b . 样本比例距总体比例在: t 0. 05以内的概率是多少？ 

35. 假定总体的比例为0.55。对于容量为100、200、500和1000的样本，分别计算比例的标准 
误差。当样本增加时，比例标准误差的大小将如何变化？ 

36, 总体的比例为0.30。对于容量分别等于下列数字的样本，其样本比例距总体比例在 ±0.04 以 
内的概率是多少？ 

a . 71 = 100 

b . n = 200 

c . 7 i = 500 

d. 7i = 1 000 

e . 取较大容量的样本有什么好处？ 

应用 


37. Doerman Distributors 公司的总裁认为，公司30%的订单来自新客户。使用一个包括 
loo 份订单的简单随机样本来估计其中新客户所占的比例。 

自测题 

a . 假定总裁的看法是正确的，即 p = 0.30。本研究中 P 的抽样分布是什么？ 

b . 样本比例云介于 0.20—0. 40之间的概率是多少？ 

c . 样本比例$介于 0.25 — 0.35 之间的概率是多少？ 

38. 根据美国百货制造商的报告，有76%的顾客会阅读产品标签所列示的配方。假定总体比例为 
p =0. 76,从总体中抽取一个包括400名顾客的样本。 

a . 以 f 表示样本中阅读过产品标签上配方的顾客比例，显示样本比例 P 的抽样分布。 

b . 样本比例距总体比例在 ±0.03 以内的概率是多少？ 

c . 对于包括750名顾客的样本，回答 ( b ) 中的问题。 

39. 《时代》 / CNN 选民民意测验监测2000年美国总统大选期间公众对总统候选人的态度。由 
Yankelovich Partners 公司进行的一项《时代》 / CNN 民意测验选取589名可能的选民作为样本 
( Time , June 26, 2000) 0 假定在可能的选民中支持某位候选人的总体比例为 p =0. 50,令 f 表 
示支持该候选人的样本比例。 

a . 显示 p 的抽样分布。 

b . 《时代》 / CNN 民意测验所提供的样本比例距总体比例在 ±0. 04以内的概率是多少？ 

c . 样本比例距总体比例在： t 0. 03以内的概率是多少？ 

d . 样本比例距总体比例在: t 0. 02以内的概率是多少？ 
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40. 虽然大多数人都认为早餐是一天中最重要的一餐，但有25%的成年人却不吃早餐 （ MS . ^ Ve«;s 
& World Report , November 10, 1997 )。假定不吃早餐的总体比例为/? = 0. 25, f 是在一个包括 
200名成年人的样本中不吃早餐的样本比例。 

a . 显示 f 的抽样分布。 

b . 样本比例距总体比例在 ±0.03 以内的概率是多少？ 

c . 样本比例距总体比例在 ±0.05 以内的概率是多少？ 

41. 根据妇女政策研究机构的报告，所有工会会员中妇女占了 37%的比例。假设工会会员中妇女 
所占的总体比例为 p = 0. 37,选取1 000名工会会员组成简单随机样本。 

a . 显示样本中妇女所占比例 f 的抽样分布。 

b . 样本比例距总体比例在 ±0.03 以内的概率是多少？ 

c . 对于容量为500的简单随机样本，回答 ( b ) 中的问题。 

42. 假定一个装配线的次品率为15%,但是该公司的生产经理尚不知道这个情况。假设公司的质 
量保证部门选取了 50个部件进行检验以确定装配线的运行质量，令^表示通过质量检验在样 
本中发现的次品比例。 

a . 显示 f 的抽样分布。 

b . 样本比例距总体比例在 ±0.03 以内的概率是多少？ 

c . 如果检验显示 f = 0. 10或更高，就应该关闭该装配线检查造成次品的原因。由50个部件组 
成的样本会导致作出关闭装配线决定的概率是多少？ 

43. 食品营销研究机构发现，'17%的家庭每周购买杂货的支出超过100美元。假定该总体比例为 
p =0. 17,并且从总体中选取800户家庭组成简单随机样本。 

a . 以 p 表示每周购买杂货的支出超过100美元的样本比例，显示 p 的抽样分布。 

b . 样本比例距总体比例在 ±0.02 以内的概率是多少？ 

c . 对于容量为1 600户家庭的样本，回答 ( b ) 中的问题。 


7.7 点估计量的性质 

本章我们已经说明了如何把诸如样本均值样本标准差$和样本比例^这样的样本统计量 
作为与它们相对应的总体参数 / X 、 O ■和 p 的点估计量来使用。但是，在将样本统计量作为点估计 
量之前，应该先对它们进行统计检验，以确保这个样本统计量是否具有良好的点估计量所应具备 
的某些性质。本节我们将讨论良好的估计量所应具备的 性质： 无偏性、有效性和一致性。 

因为存在着几种不同的样本统计量，我们将在本节使用下列通用 符号： 

0=有关的总体 参数； 

8=0 的样本统计量或点估计量。 
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符号0是希腊字母，读作 “ theta ” ，符号&读作 “ theta 尖”。通常，0代表任意的总体参数，比如 
总体均值、总体标准差和总体比例等等。&代表对应的样本统计量，比如样本均值、样本标准差 
和样本比例等等。 

无偏性 

如果样本统计量的数学期望等于它所估计的总体参数，该样本统计量就被称为是总体参数的 
无偏性 ( unbiasedness ) 。无偏性的定义如下： 

无谝牲 

如果 E (6) = 6 (7.6) 

则样本统计量&是总体参数0的无偏估计量。式中的£(幻为样本统计量 S 的数学期望。 

于是，无偏样本统计量的所有可能值的数学期望，或者说是均值等于它所估计的总体参数。 

图 7. 13显示了无偏和有偏点估计量的情况。在说明无偏点估计量的图中，抽样分布的均值等 
于总体参数的值。在这种情形下，因为点估计量的值有时小于 A 有时大于 I 所以抽样误差相互 
抵消。而在有偏估计量的情况下，抽样分布的均值小于或大于总体参数的值。在图 7.13 的 （ b ) 图 
中幻 幻大于 I 因此样本统计量过高估计总体参数值的概率很大，偏离的大小也显示在图中。 


S 的抽样分布 



参数0等于抽样分布的均值 


E{^) = 6 


3的抽样分布 



参数0不等于抽样分布的均值 


( a ) 无偏估计量 


E {^)^0 
( b ) 有偏估计量 


图 7. 13无偏和有偏点估计量的例子 


在讨论样本均值和样本比例的抽样分布时，我们给岀了五和 E ( p ) = p 0 于是， x^p 
是相应的总体参数 / x 和 p 的无偏估计量。 

我们在第11章再对样本标准差 s 和样本方差/的抽样分布进行更详细的讨论。不过我们可 
以证明五 u 2 ) = (7 2 , 因此样本方差 s 2 是总体方差（7 2 的无偏估计量。实际上，当我们在第3章首 
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次给出样本方差和样本标准差的公式时，分母是 /1-1 而不是 n ， 其原因正是为了使样本方差成 
为总体方差的无偏估计量。如果我们在分母中使用了 n , 则样本方差为总体方差的有偏估计量， 
{顷向于轻微地低估总体方差。 

有效性 

假设我们能够使用一个 n 元素的简单随机样本对同一个总体参数给出两个无偏的点估计量。 
在这种情况下，因为具有较小方差的点估计量的值会更加接近总体参数，故我们更愿意使用具有 
较小方差的点估计量。它被称为比其他点估计量具有更大的相对 有效性 (relative efficiency )。 


在从正态总体抽样时，样本均值的标准差比样本中位数的标准差小，因此样本均值 
比样本中位数有效。 


图 7. 14显示了两个无偏的点估计量 A 和良的抽样分布。注意到 A 的标准差小于良的标准 
差，因此象的值相比4的值具有更大的可能性接近于参数0。由于点估计量 以的标 准差小于点估 
计量良的标准差， A 相对良就更加有效，是更好的点估计量。 



参数 


图 7. 14两个无偏点估计最的抽样分布 


一致性 

良好的估计量所需要的第三个性质是 一致性 ( consistency )。 粗略地说，如果当样本容量增加 
时，点估计量的值有接近于总体参数的趋势，则点估计量是一致的。换句话说，大样本比小样本 
更易于得出较好的点估计值。注意到对于样本均值 L 它的标准差由给出。由于^与 
样本容量有关，故用较大的样本容量得到的^值更小，我们能够得出结论，较大的样本容量趋向 


第 7 章抽样和抽样分布 297 


于给出更接近于总体均值 g 的点估计值。在这个意义上，我们可以说样本均值^是总体均值 m 的 
一个一致估计量。同样道理，我们还可以得岀样本比例^是总体比例 P 的一个一致估计量。 



在第3章，我们介绍过均值和中位数是度 
量中心位置的两种方法。本章我们将只讨论均 
值，原因是当我们从正态总体抽样时，正态总 
体的均值与中位数相同，但中位数的标准误差 
大约比均值的标准误差大25%。回忆在 EAI 问 


题中，« = 30,均值的标准误差仍= 730.30。 
而该问题的中位数标准误差大约为 1.25 x 
730. 30 = 913,因此样本均值更有效，且距离 
总体在某特定范围内的概率更大。 


7.8 其他抽样方法 

我们已经描述了简单随机抽样方法，并且讨论了在使用简单随机抽样方法时，^和 p 抽样分 
布的特征。但是，简单随机抽样并不是惟一可用的抽样方法，我们还可以选择分层随机抽样、整群抽 
样和系统抽样，在某些情况下，它们要优于简单随机抽样。本节我们将对这些抽样方法加以简介。 




本小节是对抽样方法的一个简介，而不仅是简单的随机抽样。 


分层随机抽样 

在 分层随机抽样 (stratified random sampling ) 中，首先把总体内的元素分隔为若干个被称为层的 
组，使得总体内的每个元素属于且只属于一个层。样本设计者可以按照部门、位置、年龄和产业 
种类等等来划分层。但是，只有当每一层内的元素都尽可能地相似时，取得的效果最佳。图 7. 15 
是一个把总体分成//层的图示。 

当每一层内元素之间的方差相对较小时，分层随机抽样效果最佳。 

在分层以后，从每一层选取一个简单随机样本。然后利用公式把单个层的样本结果联系起 
来，估计有关的总体参数。分层随机抽样的值依赖于层内元素的同质性。如果层内的元素是相似 
的（同质的），则该层的方差较小，因此釆用相对较小的样本容量就能够取得对该层特征的良好估 
计。如果各层是同质的，那么利用分层随机抽样方法能够以较小的样本容量获得与简单随机抽样 
同样准确的结果。 
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图 7. 15 分层随机抽样的图示 


整群抽样 

在整群抽样 (cluster sampling ) 中，首先把总体内的元素分隔为若干个叫做 群的相 互独立的组， 
总体内的每个元素属于且只属于一个群（见图 7. 16)。然后选取一个以群为元素的简单随机样本， 
每个被选中的群内的所有元素共同组成了样本。当群内的元素不相似时，整群抽样的效果会提 
高。在理想的情况下，每一群都在较小的规模上代表总体。整群抽样的值依赖于每一群对整个总 
体的代表性。如果所有的群在代表总体的意义上是同质的，则抽取少量的群就可以得到总体参数 
的良好估计。 



图 7. 16 整群抽样的图示 


当每一群都与总体相似时，整群抽样的效果最佳。 

整群抽样最主要的应用之一是区域抽样，其中的群是街区或其他定义好的区域。整群抽样通 
常要比简单随机抽样和分层随机抽样所要求的样本容量大。但是，由于当派出一个调査员去一个 
样本群（如城市路口位置）时，可以在相对较短的时间内获得许多样本观察值，从而使用整群抽样 
节约了成本，因此，整群抽样虽然样本容量较大，但有时总成本却较低。 
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系统抽样 

在一些抽样情况下，尤其是大容量总体的情况，如果通过先找到随机数，然后计数或在总体 
清单中寻找直到发现与随机数相对应的元素这一系列程序来选取简单随机样本，是很耗时间的。 

简单随机抽样的一个替代方法是系 统抽样 (systematic sampling ) 0 例如，如果要求从一个包括5 000 
个元素的总体中选取一个容量为50的样本，我们从总体每5 000/50 = 100个元素中选出一个作 
为样本元素。在这种情况下，系统样本就是在总体清单的前100个元素中随机地选取一个，在确 
定其他样本元素时，从第一个已选出的元素开始，依次向后，选取已选出元素后面的第100个元 
素放入样本。实际上，我们可以通过在总体中系统地移动，从第一个已选出的元素开始，向后每 
隔100个元素选取一个作为样本点。以这种方法来确定一个容量为50的样本通常比用简单随机抽 
样方法容易些。由于选取的第一个元素是随机选择的，系统样本通常被假定具有简单随机样本的 
性质。尤其是当总体中的元素清单是按照随机顺序排列时，这个假设更适用。 

万俚畑砰 

迄今为止所讨论的抽样方法都被称为是概 率抽样 技术，即从总体中选出的元素都是以一个已 
知的概率被选入样本。概率抽样的优点在于通常能够确定出样本统计量的抽样分布。这样我们就 
能够使用本章介绍的简单随机抽样的公式来确定抽样分布的特征，然后利用抽样分布对结果的抽 
样误差进行概率描述。 

方便抽样 (Convenience sampling ) 是一 种非概率抽样 技术。就像它的名字一样，主要是通过简 
便的方法来确定样本。被选入样本的元素没有事先规定或已知的选取概率。例如，某教授在一所 
大学进行一项研究，由于学生志愿者是现成的且加入的成本很低，故教授仅仅使用学生志愿者组 
成了样本。类似地，一个检验员可以从许多箱子中随意地选取橙子，这是因为给每个橙子贴上标 
签并且使用概率方法对橙子抽样是不现实的。像野生动物营地和消费者研究中的志愿者小组等也 
是方便样本。 

方便样本具有相对易于选择样本和收集数据的优点，但是我们无法按照它对总体的代表程度 
评价方便样本的优良性。方便样本可能得到好的结果也可能得不到，没有统计上公认的方法对样 
本结果的质量进行分析和推断。某些研究者把为概率样本设计的统计方法应用于方便样本，他们 
认为这时能够把方便样本作为概率样本来处理。不过我们不支持这种说法，在使用方便样本的结 
果对总体进行推断和解释时应该保持谨慎。 


判断抽样 

另一个非概率抽样技术是判 断抽样 (judgment sampling ) 。在这个方法中，由对所研究的总体非 
常了解的人选择他或她认为最能代表总体的元素组成样本。往往这是一个相对容易的选择样本方 
法。例如，报告者可抽取两个或三个参议员，判断他们是否反映了所有参议员的一般意见。但 
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是，样本结果的质量依赖于选择样本的个人的判断能力。因此在判断抽样的基础上对总体的推断 
得出结论时，必须十分谨慎。 



我们推荐使用以下概率抽样 方法： 简单随 
机抽样、分层随机抽样、整群抽样以及系统抽 
样。对于这些方法，在按照样本结果与它所估 
计的总体特征的接近程度这个标准评价样本结 


果的优良性时，可以运用公式进行量化研究。 
而在使用方便抽样和判断抽样时则无法对样本 
结果的优良性进行评价。因此对于非概率抽样 
方法，在解释它的抽样结果时必须十分谨慎。 



本章我们介绍了简单随机抽样和抽样分布的概念。我们举例说明了如何选择简单随机样本和 
如何使用收集到的样本数据来作出总体参数的点估计。由于不同的简单随机样本给出了点估计量 
的不同值，因此诸如 S 和 f 这样的点估计量都是随机变量。这些随机变量的概率分布被称为抽样分 
布。特别地，我们描述了样本均值 S 和样本比例 f 的抽样分布。 

在考虑 S 和 P 抽样分布的特征时，我们给出了五(9=从和 E ⑸= Po 在建立了这些统计量的 
标准差或者说是标准误差公式以后，我们给出了中心极限定理，该定理为在大样本情况下用正态 
概率分布来近似抽样分布提供了理论基础。我们还给出了满足大样本条件的经验法则。在本章的 
最后部分，我们讨论了包括分层随机抽样、整群抽样、系统抽样、方便抽样和判断抽样在内的其 
他抽样方法。 


/ 


术 语辨义 


参数： 总体的数值特征，如总体均值/ X 、总体标准差 （7 和总体比例等等。 

简单随机 抽样： 在有限总体的情况下，选择样本时应使每一容量为 /I 的可能样本被选中的概率相 

同； 在无限总体的情况下，选择样本时应使样本内的每个元素都来自同一个样本 
并且对它们的选择是互相独立的。这样的抽样方法称为简单随机抽样。 

无放回 抽样： 一旦把一个元素选入样本以后，就把它从总体中删除，使之不能被再次选入样本的 

抽样方法。 

放回 抽样： 把一个元素选入样本后，再将它放回总体的抽样方法。这样一个以前选择过的元素可 
以被再次选入样本。 

样本统 计量： 就是样本特征，比如样本均值 L 样本标准差 S 和样本比例 f 等等。样本统计量的值 

可用于估计总体参数的值。 
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点估计值： 用作总体参数估计值的数值。 

点估 计置： 即样本统计量，如 L S 或 i 它能够给出总体参数的点估计。 

抽样 误差： 无偏点估计量的值与对应的总体参数值之差的绝对值。对于样本均值、样本标准差与 
样本比例，抽样误差分别为 \x-fJb\ 、| s _ cr | 与- p |。 

抽样 分布： 由样本统计量的所有可能值构成的概率分布。 

有限总体修正 系数： 当从有限总体而不是无限总体抽样时，在计算仍和巧的公式中使用的修正系 

数 4{ N - n )/( N -\) 0 当 n /7 V 矣 0.05 时，一般公认的经验法则可以忽略有 
限总体修正系数。 

标准 误差： 点估计量的标准差。 

中心极限 定理： 该定理使人们在样本容量较大时，能够使用正态概率分布来近似5和^的抽样分布。 
无 偏性： 如果点估计量的数学期望等于它所估计的总体参数，则该点估计量具有无偏性。 

相对有 效性： 给定同一总体参数的两个无偏点估计量，具有较小标准差的点估计量就是更有效的。 
一 致性： 如果一个点估计量随着样本容量的增加，得到的点估计值趋向于总体参数值，则该点估 
计量具有一致性。 

分层随机 抽样： 一种概率抽样方法，总体首先被分隔为若干层，然后从每一层内选取简单随机 

样本。 

整群抽样： 一种概率抽样方法，首先把总体分隔为若干群，然后再选取一个以群为元素的简单随 
机样本。 

系统 抽样： 一种概率抽样方'法，首先 在前& 个元素中随机地选取一个，然后依次把选中元素后面 
的第 &个元 素选入样本。 

方便 抽样： 一种非概率抽样方法，按照方便的原则选取元素组成样本。 

判断 抽样： 一种非概率抽样方法，根据研究者的判断选择元素组成样本。 




^的数学期望 


E ( x ) = 


i 的标准差 

有限总体 


无限总体 


IN - n ( a \ 

的- ‘― 1( 。 ) 


仍 = (。 

f 的数学期望 


E ( p ) = p 



(7.1) 


(7.2) 


(7.4) 
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f 的标准差 


ap = 


有限总体- 


jN-n / p(l -d) 

V/V-lV ^ 


无限总体 


o^p 




一 p )_ 


(7.5) 


种充该 


44. 《商业周刊》的公司业绩公告版提供了 899 家公司以下指标的季度 数据： 销售额、利润、净收 
入、权益回报率、市盈率以及每股收益 August 14, 2000) 0 按照它们出现在公 
司业绩公告版上的顺序把这些公司分别编号为从 1 到 899。 我们从表 7.1 第二列底部的随机数 
开始，忽略每组随机数的前两位，使用三位随机数并且从112开始，按 列向上 读取，确定前 
面的8家公司组成简单随机样本。 

45. 青少年平均观看电视的时间是每天3小时 （ Barwi ’； s ， November 8，1999)。 假定总体均值为 /a = 
3，总体标准差为 C 7= 1.2 小时。假设使用一个包括50名青少年的样本来监测青少年总体的 
观看电视时间。令5表示样本平均观看时间。 

a . 显示5的抽样分布。 

b . 样本均值距总体均值在 ±0. 25小时以内的概率是多少？ 


46. 芝加哥居民上班途中所花费的平均时间为 31.5 分钟 （7 995 Information Please AZmanoc ) 。 假 
定总体均值为 31.5 分钟，总体标准差为 （7= 12分钟。选取50名芝加哥居民组成简单随 
机样本。 

a . 令 i 表示50名芝加哥居民的平均上班途中时间，显示 S 的抽样分布。 

b . 样本均值距总体均值在±1分钟以内的概率是多少？ 

c . 样本均值距总体均值在±3分钟以内的概率是多少？ 

47. 根据美国劳工统计局的报告，行政管理岗位的平均小时工资率为 24.07 美元 （77 ie 
Journal Almanac 9 1998) Q 假定总体均值为 /a = 24. 07 美元，总体标准差为 < r =4. 80美元。 
选取120名从事行政管理工作的人士组成样本。 

a . 样本均值距总体均值在 ±0.50 美元以内的概率是多少？ 

b . 样本均值距总体均值在 ±1.00 美元以内的概率是多少？ 

48. 根据《今曰美国 》 (April 11, 1995) 的报道，商务旅行者每年因商务在外的平均天数为115天，标 
准差为每年60天。假定该结果适用于商务旅行者总体，从总体中选取50人组成样本。 

a . 均值标准误差的值是多少？ 

b . 样本均值超过每年115天的概率是多少？ 

c . 样本均值距总体均值在士5天以内的概率是多少？ 

d . 如果样本容量增加到100， （ c ) 中的概率将如何变化？ 
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49. 三家公司的存货数量不同。 A 公司的总体为2000件， B 公司的总体为5 000件， C 公司的总 
体为10 000件。这些存货成本的总体标准差为 （7= 144。一个统计顾问建议每个公司都从它 
的总体中选取50件存货组成样本，以得出每件存货的平均成本在统计上有效的估计值。但小 
公司的经理表示，由于他的公司存货总体最小，因此其采集数据的样本应该比存货数量大的 
公司所要求的样本小得多。而顾问则认为，为了在样本结果中得到同样的标准误差和同样的 
精度，所有公司无论存货总体大小都应使用相同的样本容量。 

a . 使用有限总体修正系数，计算样本容量都是50的每一家公司存货样本的标准误差。 

b . 对于每一家公司，其样本均值5距总体均值/ X 在±25以内的概率是多少？ 

50. 一个研究者报告的调查结果表明，均值的标准误差为20。已知总体标准差为500。 

a . 在该调查中使用了多大的样本？ 

b . 估计值距总体均值在±25以内的概率是多少？ 

51. 某质量控制检查员定期地检查一个生产工艺。该检查员选取30件已完工产品组成简单随机样 
本，并计算样本平均产品重量 L 如果长期的检验结果显示有5%的 S 值高于 2.1 磅，有5%的 
5值低于 1.9 磅，问该工艺所生产产品总体的平均重量和标准差是多少？ 

52. “对于商务旅行者而言，当他们呆在宾馆时，最重要的因素是什么？”根据《今日美国》的报 
道，有74%的商务旅行者表示拥有可以自由吸烟的房间是最重要的因素 April 
11,1995)。假定总体比例为 p = 0.74, 并选取200名商务旅行者组成样本。 

a . 令表示认为自由吸烟房间是他们呆在宾馆时最重要因素的商务旅行者的样本比例，显示 f 
的抽样分布。 

b . 样本比例距总体比例在 ±0.04 以内的概率是多少？ 

c . 样本比例距总体比例在 ±0.02 以内的概率是多少？ 

53. 某市场研究公司进行的电话调查在历史上的回复率为40%,问在一个包括400个电话号码的 
新样本中，至少有150人回答问题的概率是多少？换句话说，样本比例至少为150/400 = 
0. 375的概率是多少？ 

54. 根据 ORC 国际公司的数据，有 71% 的互联网用户使用普通电话线联结计算机与互联网 （USA 
Today , January 18,2000)。 假定总体比例为 p = 0.71。 

a . 由350名互联网用户组成的简单随机样本的样本比例距总体比例在士 0. 05以内的概率 
是多少？ 

b . 由350名互联网用户组成的简单随机样本比例大于等于 0.75 的概率是多少？ 

55. 在向 All - Driver 汽车保险公司投保的个人中，5年内至少收到一张交通事故传票的比例为 
a 15。 

a . 如果使用一个由150名投保人组成的简单随机样本来估计至少收到一张传票的总体比例， 
显示 S 的抽样分布。 

b . 样本比例距总体比例在 ±0.03 以内的概率是多少？ 
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56. Lori Jeffrey 是一家大学课本主要出版商的成功销售代表。以前 Lori 打过的销售电话中，有 
25%获得了成功。观察她一个月的销售电话作为所有可能销售电话的样本。假定对数据进行 
的统计分析表明比例的标准误差为0.0625。 

a . 在该分析中采用了多大的样本？即在这个月内 Lori 打了多少次销售电话？ 

b . 令 f 表示该月内取得成功的样本比例，显示 f 的抽样分布。 

c . 使用 P 的抽样分布，计算在一个月的期间内， Lori 的销售电话取得成功的比例大于等于 
30%的概率。 


附录 7.1 5的数学期望与标准差 

在该附录中，我们将介绍五 ( S ) 和仍表达式的数学证明。其中，五 ( i ) 由公式 （7.1) 给出，是 
i 的数学 期望； 的由公式 （7.2) 给出，是 i 的标准差。 

^的数学期望 

假定总体的均值为 M ， 方差为沪。从中抽取一个容量为〃的简单随机样本，样本的各个观察 
值可表示为...，〜。则样本均值^可计算 如下： 

Xxi 
X =- 

n 

重复选择容量为/ I 的简单随机样本的过程，^是一个随机变量，其取值依赖于选人样本的特 
定个元素。随机变量^的数学期望就是 i 所有可能取值的平均值。 

E 的均值 = EH E 

n 

-—[E(x\ + 免 + +AC„)] 

n 

= 丄 [ 五 Ui) +£( 勒 ）+ … +E(Xn )] 
n 


对于任意的 而， 我们有 E ( xi ) = fl , 因此 

E ( x ) + JJL+ ••• +JJi) 

ti 



这个结果说明， 5 所有可能值的平均值等于总体均值 M ， 即 E { x ) = /lo 
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5的标准差 

我们再次假定总体的均值为 M ， 方差为 o 2 , 样本均值由下式 给出： 

Z 尤. • 

卜7 

重复选择容量为 n 的简单随机样本的过程，我们知道5是一个随机变量，其取值依赖于选人样本 
的特定 n 个元素。下面的内容推导了在无限总体情况下 S 值的标准差^的表达式。而在有限总体 
无放回抽样情况下对^表达式的推导过程则更加困难，超出了本书的范围。 

回到无限总体情况，来自无限总体的简单随机样本由互相独立的观察值 ，〜 构成。 
下面的两个表达式是计算随机变量方差的通用 公式： 

Var ( ax ) = a 2 Var ( x ) (7. 7) 

式中的 ^是 常数， x 是随机变量。 

Var ( x + y ) = Var ( x ) + Var ( y ) (7, 8) 

式中的 x 和 y 是独立的随机变量。利用公式 (7.7) 和 (7.8), 我们能够得到随机变量的表达式 如下： 

Var ( i ) =Var (■■ $」.) =Var (士 

利用常数为 1/ n 的公式 (7.7)， 我们有 

Var ⑺ =( 丄) V ar ( Ixd 
n 

=(士) Var ( x \ + x 2 + + x n ) 

在无限总体情况下，随机变量幻，於，...， 〜是独 立的，因此由公式 (7. 8) 能够得到 

Var ( i ) = (士) [Var ( xi ) + VarOcs ) + …+ Var ( x n )] 

对于任意的％，我们有 Var U ,) =沪，因此 

Var (3) = ( 士) ( cr 2 + o -2 + • *• + a 2 ) 

在这一表示中有 n 个沪值，我们就有 

v ar (;) = (+) W)=f 

对上式取平方根，即可得出5的标准差公式 
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CTx = 


VVar (元) 


nTtT 


附录 7. 2 利用 Minitab 进行随机抽样 


如果在 Minitab 文件中含有一个总体的清单，那么我们就可以使用 Minitab 软件从该总体中选 
择简单随机样本。例如，在数据集 MetAreas 的第 1 列是美国和加拿大前 100 大的城市区域 
Rated Almanac 一 The Millennium Edition 2000) 0 第 2 列是每个城市区域的综合评分。数据集中前 
10个城市区域以及对应的评分列示在表 7. 6中。 


表 7. 6 数据集 MetAreas 中前10个城市区域的综合评分 



CD 光盘数据 


MetAreas 


城市区域 

评分 

Albany，NY 

64. 18 

Albuquerque , NM 

66. 16 

Appleton , WI 

60. 56 

Atlanta，GA 

69. 97 

Austin , TX 

71.48 

Baltimore , MD 

69.75 

Birmingham , AL 

69. 59 

Boise City , ID 

68. 36 

Boston , MA 

68.99 

Buffalo , NY 

66. 10 


假设你需要选择一个由 30 个城市区域组成的简单随机样本，以对美国和加拿大的生活费用支 
出进行一个深入研究。我们可以通过下列步骤来选择样本： 

步骤 1. 选择 Calc 下拉 菜单； 

步骤 2. 选择 Random Data 选项； 

步骤 3. 选择 Samples From Columns ; 

步骤4•当 Samples From Columns 对话框出现时： 

在 Sample _框中输入 30; 

在 Sample 30 rows from column(s) 框中输人 Cl C 2; 

在 Store samples in 框中输人 C 3 C 4; 

步骤 5. 点击 OK 。 


包含 30 个城市区域的随机样本出现在 C3 和 C4 列。 
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附录 7. 3利用 Excel 进行随机抽样 



如果在 Excel 文件中含有一个总体的清单，那么我们就可以使用 Excel 软件从该 
总体中选择简单随机样本。例如，在数据集 MetAreasW A 列是美国和加拿大前100 
大的城市区域 （Places Rated Almanac — The Millennium Edition 2000 ) 。 B 列是每个城市 


区域的综合评分。数据集中前10个城市区域以及对应的评分列示在表7, 6中。假设 
你需要选择一个由30个城市区域组成的简单随机样本，以对美国和加拿大的生活费 
用支出进行一个深入研究。 

通过向数据集上加一个额外的列，并使用= RANDO 函数在该列填上随机数，我们能够把任 


意 Excel 数据集的各行按照随机顺序排列。然后对随机数那一列使用 Excel 的升序排列功能，数据 
集内的各行将被随机地重新排序。容量为《的随机样本就出现在重新排序后数据集的前《行。 

在 MdAreas 数据集中，第1行是标志，100个城市区域在第2行到第101行。我们可以通过 
下列步骤来选择包括30个城市区域的简单随机 样本： 


步骤 1. 在单元格 C 2 中输入 = RAND (); 

步骤 2. 把 单元格 C 2 复制到单元格 C 3: C 101; 

步骤 3. 选择 C 列的任意一个单 元格； 

步骤 4. 点击工具条上的 Sort Ascending 按钮。 

由30个城市区域组成的随机样本出现在重新排序后数据集的第2到第31行。这时我们就不 
再需要 C 列的随机数，如果愿意的话，可以删去它们。 



区间估计 


统计 实例： DOLLAR GENERAL 公司 
8.1 总体均值的区间 估计： 大样本情况 

CJW 估计问题 
抽样误差 

假定 cr 已知的大样本情况 
用 s 估计 cr 的大样本情况 
8.2 总体均值的区间 估计： 小样本情况 
假定 o * 已知的小样本情况 
用 s 估计 o * 的小样本情况 
总体分布的作用 
8.3 确定样本容置 
8.4 总体比例的区间估计 
确定样本容量 
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DOLLAR GENERAL 公司 * 

纳什维尔，田纳西州 

Dollar General 公司是一家成立于1939年的干 
货批发公司。二战以后，公司开始在肯塔基州南部中 
心的乡村开设零售商店。今天 Dollar General 公司在 
美国的中部和东南部经营着超过4300家商店。公 
司的重点是以小型便利店的模式，低价销售健康和 
美容用品、清洁用品、瓷器、文具、服装、鞋和生 
活必需品。 

作为一个经营超过20 000种产品的存货密集 
型企业 ， Dollar General 公司决定采用 LIFO (后进 
先出）存货计价方法。该方法将当期的成本与当期 
的收入相配比，使价格变化对损益的影响最小化。 
另外，在通货膨胀时期， LIFO 方法减少了净收 
益，因此也减少了所得税。 LIFO 方法还使得销售 
产生的自由现金流与收益相一致，并且考虑到以当 
期的成本对存货进行置换。 

会计实践要求在 LIFO 计价方法下建立存货的 
LIFO 指数。例如， LIFO 指数为1.028，说明最近 
一年由于通货膨胀的原因，致使公司以当期成本计 
价的存货价值增加了 2. 8%。 

要建立 LIFO 指数需要对每种产品的年末存货 
按当年年末成本和上年年末成本分别计价。为了避 
免对超过4300家地区零售商店的每种产品的存货 
都进行计量，公司从100个零售商店和3个仓库中 


* 作者感谢 Dollar General 公司的经理 Robert S. Knaul 先 
生提供该统计实例。 



这家克利夫兰地区的商店是 4 300 多家 Dollar General 商店 
之一 o ⑥ Jim Baron/ The Image Finders. 


抽取 800 件产品作为随机样本。首先在年末取得这 
800件样本产品的实物存货，然后由会计人员提供 
构建 LIFO 指数所需的当年和上年成本。 

最近一年的 LIFO 指数是 1.030, 不过由于该 
指数只是一个总体 LIFO 指数的样本估计值，所以 
需要对该估计的精度作出说明。基于样本结果和 
95%的置信水平，计算得到边际误差为0.006。因 
此，总体 UF 0 指数95%置信水平的区间估计为 
(1.024, 1.036)。据判断这一精度是良好的。 

本章你将学习怎样计算与样本均值和样本比 
例相联系的边际误差，然后还会学习如何利用这些 
信息构建并解释总体均值和总体比例的置信区间估 
计。你也会了解为了保证边际误差在可接受的限度 
以内，应如何确定所需要的样本容量。 


在第7章，我们讲述了点估计量是用来估计总体参数的样本统计量。例如，样本均值5是总 
体均值 M 的点估计量，样本比例 P 是总体比例 P 的点估计量。由于点估计量不能提供关于估计值 
与总体参数接近程度的信息，统计学家更倾向于使用区 间估计 (interval estimate ) ，它能够提供有关 
估计精度的信息。 
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我们通过把点估计值减去和加上一个被称为边际误差 （margin of error ) 的值，可以构建出总体 
参数的一个区间估计。我们在本章建立的所有区间估计都将釆用以下的这种 形式： 

点估计值±边际误差 

特别地，我们将说明如何建立总体均值 / x 和总体比例 p 的区间估计。总体均值的区间估计釆用如 
下 形式： 


:±边际误差 

总体比例的区间估计形式 如下： 

5±边际误差 

边际误差提供了估计精度的信息。正如我们要说明的，第7章介绍的^抽样分布和^抽样分布在建 
立总体均值 / x 和总体比例 p 的区间估计方面起了重要的作用。 


8.1 总体均值的区间 估计： 大样本情况 

在这一节，我们将说明如何使用简单随机样本来建立总体均值的区间估计，重点是样本容量 
至少为30的大样本情况。我们从假定总体标准差 a 已知的情况开始讨论，然后再考虑总体标准 
差未知的情况，以及怎样用样本标准差 s 估计 a 。 

CJW 估计问题 

我们通过考虑 CJW 公司的一项每月客户服务调查，来举例说明如何建立总体均 
值的区间估计。 CJW 公司专营体育设备及其附属产品，并提供网上订购服务。其客户 
服务的方式包括方便的在线订购，正确填写订单，及时传送订单，对客户的需求作出 
迅速反应等内容，它们是公司走向成功的关键。 

CJW 公司的质量保证小组使用客户服务调查来度量客户对其在线订购系统的满意度。每个月 
该小组都把调查问卷送给由上月订过货的客户组成的随机样本，要求样本客户完成问卷，对公司 
的服务作出评价。每个客户的答案将被转换为满意度分数，范围从 0( 最差的可能评价）到100 ( 最 
好的可能评价）。然后以每月的调查为基础，计算样本的平均客户满意度分数。然后，使用样本平 
均满意度分数作为所有客户平均满意度分数的点估计。样本均值向 CJW 公司的管理层提供了对公 
司在线订购服务质量的及时度量。这样当较低的客户满意度分数出现时，公司就可以迅速地釆取 
有关措施。 

以前的每月客户服务调查已经显示，满意度分数的标准差已经稳定在20附近。于是，总体标 
准差已知为 cr = 20 这一假定得到了历史数据的支持。最近的客户满意度调查提供了包含100名客 
户 （n = 100) 的样本的满意度分数。样本的平均满意度分数$ = 82,给出了总体均值 / x 的点估 



CD 光盘数据 
CJW 
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计。在下面的讨论中，我们将计算与 S = 82 相联系的边际误差，然后建立起一个客户总体平均满 
意度分数的区间估计。 

抽样误差 

只要使用样本均值来估计总体均值，总有人 会问： 这个估计有多好？ “有多好”其实是在询问 
以 i 作为 M 的点估计时的误差有多少。 一 般地， 一 个无偏点估计量与总体参数之差的绝对值，被 
称为抽样误差 (sampling error )。 在用样本均值估计总体均值的情况下，定义抽样误差 如下： 

抽样误差= ( 8 . 1 ) 

在实践中，由于总体均值 M 未知而无法准确地确定抽样误差的值。但是，利用5的抽样分 
布，我们能够对抽样误差进行概率描述，下面我们就以 CJW 公司为例来说明。 

对于样本容量 n =100 , 总体标准差 a = 20 的抽样分布，在第7章曾经介绍过的中心极限定 
理使得我们能够得出结论 ：可以 通过具有均值 M 和标准差的= d = 20/^100 = 2的正态概率分布 
来近似 i 的抽样分布。图 8.1 显示了该抽样分布。由于抽样分布说明了 5的值是如何围绕 m 
分布的，因此它提供了5和 g 之间可能的差值信息。而这个信息又是对抽样误差进行概率描述的 
基础。 


中心极限定理可应用于任何总体，因此，即使总体分布未知，仍然可以使用本节介 
绍的 方法。 


利用标准正态概率分布表，我们发现具有正态分布的随机变量有95%的值处在距均值 ±1.96 
个标准差的范围以内。由于5的抽样分布能够被近似为正态分布，故所有的5值中有95%必定距 
均值 / a 在±1.%的以内。在 CJW 例子中，1,96的= 1.96 x 2 = 3.92。于是，我们能够总结出有 
95%的样本均值 n = 100距总体均值在± 3. 92以内。 





图 8.1 来自一个由100名客户组成的样本的平均满意度分数的抽样分布 
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图 8.2 显示了与 M 的差在 3.92 以内的样本均值的位置。注意到如果样本均值处在“所有无值 
的95%”区域内的话，则抽样误差小于等于 3. 92。但是，如果样本均值位于抽样分布的 
下侧或者上侧的话，抽样误差将大于 3. 92。因此关于 CJW 问题的抽样误差，我们能够作 
出如下的概率描述： • 

样本均值的抽样误差小于等于 3. 92的概率是 0. 95。 

这个概率描述也就是当使用来自包含100名客户的简单随机样本的样本均值来估计总体均值 
时，对存在的抽样误差所做的精 度表述 (precision statement ) 。值 3. 92表示抽样误差的上限，被称 
为边际 误差。 




3.92. 



1.96 的 



3. 92- 



1. 96 on 


x 


图 8. 2 显示出抽样误差小于等于 3. 92的那部分样本均值位置的抽样分布 


假定 O " 已知的大样本情况 

n = 100名客户的 CJW 样本满足大样本的.条件 n 多30。另外，根据以前的客户调查， CJW 公 
司能够假定总体标准差已知为 cr = 20。 下面将说明我们如何利用精度表述来建立总体均值的置信 
区间估计。 

正如我们在本章的开始所指出的那样，总体均值的区间估计采用了如下的 形式： 

元±边际误差 

对于大多数最近的 CJW 调查/1 = 100名的客户而言，样本均值为$ = 82。我们已经知道利用 0.95 
的概率精度表述，其对应的边际误差是 3. 92。于是，82±3.92就是总体均值的一个区间估计。 
由此我们能够得到该区间估计的下限为 82-3.92=78.08, 该区间估计的上限为 82 + 3.92 = 
85.92, 78. 08—85. 92是总体均值的一个区间估计。 
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为了说明如何解释总体均值 M 的区间估计，假设有三个不同的随机样本，每个样本都由100 
名 CJW 公司的客户构成，让我们考虑从这三个样本得到的样本均值5的所有可能值。假定第一个 
样本均值结果为图 8.3 中①所 示值。在这种情况下，图 8. 3显示了这个由 A 加减 3. 92形成的区间 
包括了总体均值 At 。现在来考虑如果样本均值结果为图 8.3 中而所示值的话，会发生什么情况。 
虽然该样本均值与第一个样本均值不同，我们看到於加减 3. 92形成的区间也包括总体均值 / x 。 
但是，当样本均值结果为图 8. 3中石所示值时，会发生什么？这时，办加减 3. 92形成的区间不包 
括总体均值/ X 。原因是於在分布的上侧，并且距离/ X 超过了 3.92。于是，办加减 3. 92形成的区 
间就不会包括 M 。 

图 8.3 阴影区域内的任意一个样本均值$都能够构造出一个包含总体均值 / x 在内的区间。由 
于所有可能的样本均值中有95%处在阴影区域内，故 S 加减 3.92 所形成的所有区间中也有95% 
的区间会包括总体均值 At 在内。因此我们有95%的置信度认为所构建的区间 U -3.92, 元+ 
3.92) 将包括总体均值/ X 。因为在所有可能的样本均值中有95%的样本均值能够构造出一个包含 
总体均值在内的区间，所以该区间是建立在95%置信水平 (confidence level ) 上的。值 0.95 被称为 
置信系数 (confidence coefficient ) ,区间估计5 ± 3. 92被称为95%置信区间。 


该讨论同时也说明了为什么称这个区间为 95% 置信区间。 



± 3. 92区间 

—3 


总体均值 m 


王 3 ±3.92 区间 
(注意该区间不包括/>0 


图 8. 3 在所选样本均值分别为 I 、石和石时形成的区间 
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当样本为大容量且假定总体标准差已知时，下面的公式说明了建立总体均值区间估计的通用 
方法： 

总体均值的区间 估计： 假定 （7 已知的穴祥本猜況 （71 多 30) 

x ± Za / 2 -^— (8. 2) 

V n 

式中的 1- a 是置信系数，〜2是当标准正态概率分布的上侧面积为 a /2 时的 Z 值。 

我们使用公式 (8. 2) 来构建 CJW 问题的95%置信区间。对于一个95%的置信区间而言， 
置信系数是1 - a =0.95, 于是 a = 0.05。 使用标准正态分布表，上侧面积 a /2 = 0. 05/2 = 0. 025 
对应的 z 值为 Zo . o 25 = 1.96。 由于 CJW 问题的样本均值5 = 82,假定已知 （7=20, 样本容量 n = 
100,我们得到 

20 

82±1.96 x -^= 

厕 

即 82 d ： 3. 92 

于是，使用公式（8.2)，得到边际误差为3.92，置信区间为 82-3.92=78.08 到 82 + 3.92 = 
85.92。因此和前面的结果一样， CJW 公司能够有95%的把握相信总体平均满意度分数在 78. 08 
到 85. 92之间。 

虽然95%的置信水平较为常用，但是也可以考虑使用其他一些置信水平，如90%和99%。 
表 8.1 列出了最经常使用的一些置信水平所对应的匕 /2 值\利用这些值和公式 （8. 2)， CJW 问题 
90%的置信区间为 


82 ±1 . 645 x 


20 

VIoo 


即 82 ± 3. 29 

因此在90%的置信水平上，边际误差为 3.29, 置信区间为 82-3.29 = 78.71 到 82+3.29 = 
85.29。类似地，99%的置信区间是 


82 ±2. 576 x 


20 

VlOO 


即 82 ±5. 15 

因此在99%的置信水平上，边际误差为 5. 15,置信区间为 82-5.15 =76.85 到 82 + 5.15 = 
87. 15。 

比较90%、95%和99%置信水平的结果，我们看到，为了得到更高的确信程度，边际误差和 

*标准正态概率表给出的 z 值精确到小数点后两位。但是对于90%、95%、99%的置信水平，在实际应用中通常使用精确到小 
数点后三位的 z 值。 
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置信区间的宽度都必须更大。 


表 8. 1最常用的一些置信水平所对应的值 


置信水平 

a 

a /2 

Za /2 

90% 

0. 10 

0.05 

1.645 

95% 

0. 05 

0. 025 

1.960 

99% 

0.01 

0.005 

2. 576 


用$估计^的大样本情况 

使用公式 (8. 2) 计算 •总体 均值区间估计的困难之处在于，在许多实际应用中缺乏假定总体标准 
差为已知的基础。这时，只有使用样本标准差 s 来估计（7。在大样本情况下 （ n 多30)，当样本容 
量增大时，样本标准差 S 对 （7 作出了良好的估计这一事实以及中心极限定理 /都使 得我们能够利 
用下面的方法来建立总体均值的区间估计。 


总体均值的区间诂 计：用 

S 估计 （7 的大祥本猜況 ( n ^30) 


Za/2 r •一— ( 8* 3 ) 

y[V 

式中， s 为样本标准差， 1 - 

- a 为置信系数， z a /2 是标准正态概率分布的上侧面积为 a /2 时 

的 z 值。 



由于总体标准差 CT 未知，使用样本标准差 S 来估计 t 7。 


为了说明这种区间估计方法，让我们来考虑一个抽样研究，它的设计目的是估计美国家庭的 
信用卡负债情况。一个包含85户家庭的样本提供了表 8. 2所示的信用卡余额。由于 n = 85, 这是 
一个大样本情况。另外，因为不能得到每户家庭信用卡余额的历史数据，只能使用样本标准差 S 
来估计总体标准差现在我们来建立总体每户家庭的平均信用卡余额的95%置信区间估计。 

首先，我们使用表 8.2 的数据计算出样本均值5 = 5 900美元，样本标准差058美元。在 
95%的置信水平上， z a /2 = zo .025 = 1. %。对于样本容量 /I = 85,由公式 (8. 3) 可得 

5 900 ±1.96 x 


即 5 900 ± 650 

于是，边际误差是650美元，总体均值的95%置信区间估计为59⑻ -650 = 5 250 美元到5900 + 

*大样本理论显示，当样本容量增加时，样本方差 S 2 随机地收敛于总体方差沪。这种收敛性使得我们能够使用 S 来估计 CT , 
并且使用公式 （8.3) 来计算总体均值的区间估计。 
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650 =6 550美元。因此，我们能够有95%的把握相信所有家庭总体平均的信用卡余额处在5 250 
美元和6 550美元之间。 


表 8. 2 85户家庭样本的信用卡余额 



CD 光盘数据 
Balance 


9 619 

5 994 

3 344 

7 888 

7 581 

9 980 

5 364 

4 652 

13 627 

3 091 

12 545 

8 718 

8 348 

5 376 

968 

943 

7 959 

8 452 

7 348 

5 998 

4 714 

8 762 

2 563 

4 935 

381 

7 530 

4 334 

1 407 

6 787 

5 938 

2 998 

3 678 

4 911 

6 644 

5 071 

5 266 

1 686 

3 581 

1 920 

7 644 

9 536 

10 658 

1 962 

5 625 

3 780 

11 169 

4 459 

3 910 

4 920 

5 619 

3 478 

7 979 

8 047 

7 503 

5 047 

9 032 

6 185 

3 258 

8 083 

1 582 

6 921 

13 236 

1 141 

8 660 

2 153 


5 759 

4 447 

7 577 

7 511 

8 003 


8 047 

609 

4 667 

14 442 

6 795 


3 924 

414 

5 219 

4 447 

5 915 


3 470 

7 636 

6 416 

6 550 

7 164 



Minitab , Excel 以及其他一些应用软件提供了在可以利用 s 估计 c 时计算大样本情况置信区 
间的简便办法。在附录 8. 2和 8. 3我们描述了使用 Minitab 和 Excel 的步骤。 Minitab 区间估计步骤 
的运行结果显示在图 8.4 中。由85户家庭的样本得到的样本平均信用卡余额为5 900美元，样本 
标准差为3058美元，均值的标准误差为332美元，95%的置信区间为5 250美元到6 550美元。 


在第 7 章，我们曾指出 0^=(7/^ 是均值的标准误差。 Minitab 通过利用 s 估计（7, 
给出了 一个均值标准误差的估计值。 


Variable N Mean StDev SE Mean 95.0% Cl 

Balance 85 5900 3058 332 (5250, 6550) 


图 8. 4 信用卡余额调查的置信区间的 Minitab 输出结果 



1. 在建立总体均值的区间估计时，我们在选择 因此在选取样本之前，我们已经知道最终计算 
样本之前已规定了所要求的置信系数 1- 的置信区间将包含总体均值 M 在内的概率为 
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l - a 。 但是，一旦选取了样本，并计算出样 
本均值 L 确定了特定的区间估计以后，所 
得到的区间可能包括或者可能不包括总体均 
值如果 1- a 合理地选择了较大值的 
话，假设我们不断重复该过程，用这种方法 
建立的所有可能区间中有 100(1 _ a ) 的区间 
会包括 JLL 在内。 

2. 在实践应用中很少会知道总体标准差但 
是，历史数据、理论和其他一些来源能够向 
使用者提供关于 tr 值的很多信息。如果使 
用者相信这些^值要比使用样本标准差 s 


估计出的 （7 值更好一些的话，就应该使用 
假定 （7 已知的大样本情况公式 (8.2) 来计算 
总体的区间估计。 

3. 在区间估计的公式 (8.2) 和 （8.3) 中，我们注 
意到样本容量 n 出现在分母上。因而，当某 
个样本容量产生的区间太宽以至于失去使用 
价值时，我们可以考虑增大样本容量。由于 
ri 在分母上，增大样本容量能够使边际误差 
减小，估计区间变窄，精度提高。我们将在 
8.3 节讨论为达到所需要的精度确定相应简 
单随机样本容量的方法。 



方法 

1. 一个包含40项元素的简单随机样本的样本均值为25,总体标准差为 o - = 5 0 

a . 均值的标准误差仍是多少？ 

b . 在95%的概率下，边际误差是多少？ 

^ 一个包含50项元素的简单随机样本的样本均值为32,样本标准差为6。 

a . 求总体均值的90%置信区间。 

b . 求总体均值的95%置信区间。 

c . 求总体均值的99%置信区间。 


3. 包含60项元素的简单随机样本的样本均值为80，样本标准差为15。 

a . 计算总体均值的95%置信区间。 

b . 假定一个容量为120的样本具有相同的样本均值与样本标准差，求总体均值的95%置信区间。 

c . 样本容量增加对总体均值的区间估计有什么影响？ 

4. 已知某个总体均值的95%置信区间是 (122, 130)。如果样本均值为126,样本标准差为 16.07, 
问该研究中使用的样本容量是多少？ 

应用 

5. 为了估计亚特兰大某个主要饭店每位客户午餐的平均消费额，从一个包含49名客户 
的样本中收集数据。假定总体标准差是5美元。 

自测题 

a . 在95%的置信水平下，边际误差是多少？ 
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b . 如果样本均值是 24. 80美元，总体均值的95%置信区间是什么？ 

6. 《纽约时报1998年年鉴》公布了各个行业从业人员的平均每周收入。其中服务业的从业人员平 
均每周收入369美元，假定该结果是建立在一个由250名服务业从业人员组成的样本基础上， 
并且样本标准差为50美元。计算服务业人员总体平均每周收入的95%区间估计。 

7. 美国顶级的商学院所录取的研究生入学成绩平均学分达到 3 . 37 ( Best Graduate Schools , 
U . S . News and World Report , 2001 Edition ) 。假定该估计是建立在由120名被顶级商学院录取的 
学生组成的样本基础之上，利用以往年份的数据，可以假定总体标准差已知为 （7 = 0.28。对于 
顶级商学院录取的研究生总体，其平均学分的95%置信区间估计是什么？ 


8 . 美国国家独立学院与大学联合会报告说，毕业于公立高校的学生在毕业前平均负债额为12 000 
美元 （ Kiplinger’s Personal Finance Magazine , November 1998) 。 假定该平均数额是建立在包括 
245名学生的样本基础上，并且根据以往的研究，负债的总体标准差已知为2200美元。 

a . 建立总体均值的90%置信区间估计。 

b . 建立总体均值的95%置信区间估计。 

c . 建立总体均值的99%置信区间估计。 

d . 讨论当置信水平提高时，置信区间的宽度将发生什么变化。这个结果合理吗？请解释。 


9. 



CD 光盘数据 
Workers 


《华尔街日报》于1997年11月25日总结报道了生产工人每小时的平均报酬。由60 
名生产工人的小时报酬率组成的样本包含在数据集 Workers 中。 

a . 利用数据集 Workers 建立生产工人总体平均小时报酬率的点估计。 

b . 样本标准差是多少？ 

c . 生产工人总体平均小时报酬率的95%置信区间是什么？ 


10. 根据尼尔森媒体研究的报告，在从晚上8点到晚上11点的时段内，家庭的平均收看电视时间 
为每周 7.75 小时20⑻)。假定样本容量为180户家庭，样本标准差为 3.45 
小时，则在晚上8点到晚上11点时段内，总体的家庭每周平均收看电视时间的95%置信区间 
估计是什么？ 


11 . 



CD 光盘数据 
Miami 


国际航空运输协会对商务旅行者进行了调查，以评定经营跨大西洋航线的机场的质量 
得分。最大的可能得分是10。假定选取了 50名商务旅行者组成简单随机样本，每个 
旅行者被要求给迈阿密国际机场评分。从样本中得到的评分 如下： 

6468776338 10 48 
7875 9 58438 5 5 4 


4 4 8 4 

9 9 5 9 


5 6 2 5 9 9 

7 8 3 10 8 9 



6 



建立商务旅行者总体对迈阿密机场平均打分的95%置信区间估计。 


12.在2000年暑假期间调查了包括 Wendy ’ s 、 麦当劳和 Burger King 在内的30家快餐店 （77^ 
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Cincinnati Enquirer ，July 9, 2000) 。 在每次调查中，客户都来到外卖窗口，要一份诸如 
三明治、炸薯条之类的基本食品，然后记录快餐店从收到菜单到交付食品所花费的时 
间。在 30 次调查中所花费的分钟数 如下： 


0.9 

1,0 

1.2 

2.2 

1.9 

3.6 

2.8 

5.2 

1.8 

2. 1 

6.8 

1.3 

3.0 

4.5 

2.8 

2.3 

2.7 

5.7 

4.8 

3.5 

2.6 

3.3 

5.0 

4.0 

7.2 

9.1 

2.8 

3.6 

7.3 

9.0 


a . 快餐店总体平均外卖花费时间的估计值是多少? 

b . 在 95% 置信水平下，边际误差是多少？ 

c . 总体平均时间的 95% 置信区间估计是什么？ 



CD 光盘数据 


8.2 总体均值的区间 估计： 小样本情况 


在 8.1 节介绍的区间估计方法建立在大样本理论和中心极限定理的基础上。这种情况下，无 
论总体的概率分布如何，都可以用正态概率分布来近似5的抽样分布。因此，大样本方法不需要 
任何关于总体分布的假设。 

在本节我们将说明如何在小样本（《<30)的情况下，建立总体均值的区间估计。小样本情况 
下元的抽样分布依赖于总体的分布形式。因此下面的区间估计方法是基于总体具有正态分布的假 
设而提岀的。如果该假设符合实际情况，则能够使用本节给出的方法来计算总体均值的区间估 
计。但是，如果该假设不符合实际，我们建议把样本容量增加到71多30,改为使用 8.1 节的大样 
本方法。 

在小样本情况下，我们从假设总体标准差 （7 已知的情况入手，然后考虑用样本标准差 S 估计 
总体标准差 O ■的情况。 


本章的方法是基于假设总体呈正态分布。 


假定 C 7 已知的小样本情况 

我们假设总体具有正态分布，并且假定总体标准差 o ■已知。这时5的抽样分布对于任意的样 
本容量都是正态分布，其均值为标准差为仍 =<7// TT 。 因此，给定5的抽样分布是正态分布并 
且假定 C 7 已知的小样本区间估计方法与 8. 1节的大样本区间估计方法相同。该方法的表达式如 
，下： 
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思体均值的区间 估计： 假定 cr 已知的小祥本猜況 ( n <30) 

假设：总体具有正态概率分布 D 

x±z a/ T-^— ( 8 . 4 ) 

fn 

I 

I 式中的 1- a 为置信系数，& /2 是在标准正态概率分布的上侧面积为 a /2 时对应的 z 值。 

!_I 

假定 CT 已知，并且已知对应于所要求置信水平的2。/ 2 值，样本容量〜以及样本均值 L 就 
能够使用公式 (8. 4) 计算总体均值的区间估计。由于该计算过程与 8.1 节的计算过程相同，在此我 
们就不再举例说明了。 


用$估计 O " 的小样本情况 

我们首先假定总体具有正态分布。如果我们没有任何根据假定已知总体标准差 CT 的话，就要使 
用样本标准差 s 来估计 o ■。这时的区间估计方法要依靠一种被称为 f 分布 （t distribution ) 的概率分布。 


William Sealy Gosset , 笔名为 Student , 创建了 f 分布。他是牛津大学数学系的一名研 
究生，曾为爱尔兰首都都柏林的 Guinness 啤酒厂工作。在此 期间， 他进行过小规模的材 
料和温度实验，在实验中他建立了这一新的小样本统计理论。 


t 分布是一系列类似的概率分布，一个特定的分布依赖于一个被称为自由度 (degrees of free - 
dom ) 的参数。自由度为1的 f 分布是惟一的，自由度为2的£分布也是惟一的。实际上，对于每 
一个自由度，有且只有一个 f 分布与之相对应。随着自由度的增大， f 分布与正态概率分布之间 
的差别变得越来越小。图 8. 5显示了自由度分别为10和20时的£分布，以及它们与标准正态概 
率分布的关系。我们注意到， t 分布的自由度越大，它的变异程度越小，也越接近于标准正态概 
率分布。我们还注意到， f 分布的均值为0。 

我们给£加上下标以表示 f 分布的上侧面积。例如，就像我们用 Z 0.025 表示与标准正态概率分 



0 


图 8. 5 标准正态概率分布与自由度分别为10和20的两个 t 分布的比较 
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布的上侧面积 0.025 相对应的 z 值一样，我们使用〜。 25 表示与£分布的上侧面积 0.025 相对应的 
f 值。一般地，我们使用符号代表与 i 分布的上侧面积《/2对应的 t 值。见图 8. 6。 



图 8. 6 上侧面积或上侧概率为 a /2 的 f 分布 

表8.3是《分布表。例如，对于自由度为10的 f 分布， ^.025 =2. 228 o 类似地，对于自由度 
为20的 f 分布，《。.。 25 =2.086。当自由度持续增加时，“25趋近于办.025 = 1.96 0 


随着自由度的增加， t 分布趋近于标准正态分布。实际上，标准正态分布的 z 值可 
以在 i 分布表中自由度为无穷的那一行查到。 


表8, 3 f 分布的上侧面积表（以自由度10 为例： ^.025 =2. 228) 



0 


自由度 



0. 10 

0. 05 

1 

3.078 

6.314 

2 

1.886 

2. 920 

3 

1.638 

2. 353 

4 

1.533 

2. 132 

5 

1.476 

2.015 

6 

1.440 

1.943 

7 

1.415 

1.895 

8 

1.397 

1.860 

9 

1.383 

1.833 


上侧面积 


0. 025 

0.01 

0. 005 

12. 706 

31.821 

63.657 

4. 303 

6. 965 

9. 925 

3. 182 

4. 541 

5.841 

2.776 

3, 747 

4. 604 

2. 571 

3.365 

4. 032 

2. 447 

3. 143 

3.707 

2. 365 

2. 998 

3.499 

2.306 

2. 896 

3.355 

2. 262 

2.821 

3.250 
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(续表） 


自由度 



上侧面积 



0. 10 

0. 05 

0. 025 

0. 01 

0. 005 

10 

1.372 

1.812 

2. 228 

2.764 

3. 169 

11 

1.363 

1.796 

2. 201 

2.718 

3. 106 

12 

1.356 

1.782 

2. 179 

2. 681 

3.055 

13 

1.350 

1.771 

2. 160 

2. 650 

3, 012 

14 

1.345 

1.761 

2. 145 

2. 624 

2.977 

15 

1.341 

1.753 

2. 131 

2. 602 

2. 947 

16 

1,337 

1，746 

2. 120 

2. 583 

2.921 

17 

1.333 

1.740 

2. 110 

2, 567 

2. 898 

18 

1.330 

1.734 

2. 101 

2.552 

2.878 

19 

1.328 

1.729 

2.093 

2. 539 

2. 861 

20 

1.325 

1.725 

2. 086 

2. 528 

2.845 

21 

1.323 

1.721 

2. 080 

2.518 

2.831 

22 

1.321 

1.717 

2 . 074 

2. 508 

2.819 

23 

1.319 

1.714 

2.069 

2. 500 

2. 807 

24 

1.318 

1.711 

2, 064 

2. 492 

2. 797 

25 

1.316 

1.708 

2. 060 

2.485 

2.787 

26 

1.315 

1.706 

2. 056 

2. 479 

2. 779 

27 

1.314 

1.703 

2. 052 

2. 473 

2. 771 

28 

1.313 

1.701 

2 ‘ 048 

2‘ 467 

2.763 

29 

1.311 

1.699 

2.045 

2.462 

2. 756 

30 

i .310 

1.697 

2. 042 

2. 457 

2. 750 

40 

1.303 

1.684 

2. 021 

2. 423 

2.704 

60 

1.296 

1.671 

2. 000 

2. 390 

2. 660 

120 

1.289 

1,658 

1.980 

2. 358 

2. 617 

00 

1.282 

1.645 

1.960 

2, 326 

2. 576 

现在， 

我们已经知道了什么是 

t 分布， 

接着我们来学习如何利用 

f 分布对总体均值进行区间 


估计。假定总体具有正态概率分布，并且使用样本标准差 s 来估计总体标准差0"。这时使用下面 
的区间估计 方法： 


S 体均值的区间 估计： 用 S 估计 tr 的小祥本稿況 ( n <30) 

假定： 总体具有正态概率分布。 


X ± ta/2 


S 


yl~n 


(8.5) 


式中的 S 是样本标准差， 1- tt 是置信系数，是与自由度为 M -1 的 f 分布的上侧面积 
a /2 相对应的 t 值。 

与公式 (8.5) 中的 t 值相联系的自由度是 n -1， 这是由于不得不采用样本标准差 s 来估计总 
体标准差 CT 的缘故。样本标准差 S 的表达式为 
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自由度是计算乙（&-幻 2 时所使用的独立信息个数。在计算幻 2 时，涉及到的 n 个信息如 
下： Xi - X , X2 - X , Xn -Xo 在 3.2 节，我们曾经指出：对于任意的数据集， L { xi - x ) =0 o 
因此，只有 n -1 个％— 5值是独立的，也就是说，如果我们知道了 n -1 个值，利用值的总 
和必定等于0这一条件，就能够准确地确定剩下的那个值。因此， n -1 是与相联系的 
自由度，也就是公式 (8.5) 中 f 分布的自由度。 

我们来举例说明小样本区间的估计方法。考虑一项由 Scheer 工业公司进行的培训计划评估。 
该公司的生产主管对一套可用于培训公司维修工，提高他们设备维修操作水平的计算机辅助程序 
感兴趣，他希望计算机辅助方法能够减少培训员工所需的时间。为了评价该培训方法，生产主管 
需要估计这种计算机辅助程序带来的总体平均培训时间。 

假设管理层同意利用计算机辅助程序培训15名员工。样本中每个员工所需的培训时间数据列 
在表 8.4 中。这些数据的样本均值和样本标准差 如下： 

5=-^=-^-= 53. 87 天 


= r 


: i - x ) 2 /651.73 


-1 


14 


6. 82天 


表 8. 4 Scheer 工业公司计算机辅助培训计划需要的培训时间 



CD 光盘数据 
Training 


员工编号 

时间（天） 

员工编号 

时间（天） 

员工编号 

时间（天） 

1 

52 

6 

59 

11 

54 

2 

44 

7 

50 

12 

58 

3 

55 

8 

54 

13 

60 

4 

44 

9 

62 

14 

62 

5 

45 

10 

46 

15 

63 


总体平均培训时间的点估计是 53. 87天。通过建立总体均值的区间估计，我们能够得到关于 
该估计精度的信息。由于总体标准差未知，我们用样本标准差 s =6. 82天来估计（7。该问题中的 
样本容量为 rt = 15, 是小容量情况，故我们使用公式 (8.5) 来构建总体均值的95%置信区间估 
计。如果我们假定总体的培训时间具有正态概率分布，则自由度为 n-l = 14 的 t 分布是适用于 
该区间估计方法的恰当概率分布。我们在表 8.3 看到当自由度等于14时，& /2 =“.。 25 =2. 145。使 
用公式 (8. 5), 我们有 


即 


X ± to. 025' 


AT 


53. 87 ±2. 145 x 


6. 82 

VT5 


53. 87 ±3. 78 
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t 分布是建立在总体具有正态概率分布的假设基础上，但是，只要总体分布与正态 
分布的差别不是很大，就能够使用基于 f 分布的置信区间。 


因此，边际误差是 3. 78天，总体均值的95%置信区间估计是 (50. 09天， 57.65 天）。 

Minitab 也能够计算本例中总体均值的区间估计，输出结果显示在图 8.7 中。结果表 明：用 
15个员工的样本计算出的样本均值是 53. 87天，样本标准差是 6. 82天，均值的标准误差是 1.76 
天，总体的95%置信区间是 (50. 09天， 57. 65天）。 


Variable N Mean StDev SE Mean 95.0 % Cl 

Time 15 53.87 6.82 1.76 (50.09, 57.65) 


图 8. 7 Scheer 工业公司问题的置信区间的 Minitab 输出结果 

总体分布的作用 

在结束本节时，我们有必要指出，建立总体均值的区间估计时需要考虑的因素之一是要确定 
总体分布的形式。 8.1 节的大样本区间估计方法不需要关于总体分布的假设，因此适用于具有任 
意分布的总体。而 8. 2节的区间估计方法是建立在总体具有正态分布的基础之上，故只能适用于 
具有正态分布的总体，或接近正态的总体。 

在实践中，如果样本容量较大 （ n 多 30) 并且总体分布未知的话，我们采用 8.1 节的方法。这 
时，可以构建总体均值的区间估计 如下： 


假设^已知 


用 s 估计 O ' 




/7T 


X ± Za/2 


yTn 


( 8 . 2 ) 


(8.3) 


对于具有任意分布的总体，大样本理论支持使用公式 (8. 2) 和 (8. 3)。 

如果样本容量较小 （„< 30 ),并且总体具有正态分布的话，则采用 8.2 节的方法。这时，我们 
能够建立总体均值的区间估计 如下： 

假设^已知 


X ± Za/2 


yf~n 


(8.4) 
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用 s 估计 

X i ta/2 p— ^ (8.5) 

yjn 

实际上，如果已知总体具有正态分布，无论是大样本情况还是小样本情况，都能够使用公式 (8. 4) 
和 (8. 5) 来建立总体均值的区间估计。 

在大多数的实践应用中，我们不知道总体的分布。由于公式 (8.2) 和 （8.3) 适用于具有任意分 
布的总体，故在给定样本容量较大 （ n ^30) 的条件下，我们对总体分布不作任何假设就能够使 
用公式 （8. 2) 或 (8. 3)。因此，需要假设总体具有正态分布并且考虑使用公式 (8. 4) 和 （8.5) 的惟一 
场合是当样本容量较小（；1<30)时。图 8. 8总结了我们讲述过的所有区间估计方法，为我们计算总 
体均值的区间估计提供了实际指导。 



图 8. 8 总体均值的区间估计计算方法总结 
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方法 

13. 对于自由度为12的 t 分布，计算下面每个区域内的面积或概率。 

a . 1.782 左边 

b . - 1.356 右边 

c . 2. 681 右边 

d . -1.782 左边 

e . -2, 179和 +2. 179之间 

f . 一 1.356 和 +1.782 之间 

14. 计算下面每个例子的 t 值。 

a . 自由度为18的 t 分布的上侧面积为0.05。 

b . 自由度为22的 t 分布的下侧面积为0.10。 

c . 自由度为5的£分布的上侧面积为0.01。 

d . 自由度为14的^分布在这两个^值之间的面积是90%。 

e . 自由度为28的《分布在这两个 t 值之间的面积是95%。 

15. _ 下面的数据是从来自正态总体的样本中收集的：10, 8, 12, 15，13，11，6, 5。 

a . 总体均值的点估计是多少？ 

自测题 

b . 总体标准差的点估计是多少？ 

c . 总体均值的95%置信区间是多少？ / 

16. 包括20个观察值的简单随机样本来自正态总体，其样本均值为17.25,样本标准差为3.3。 

a . 建立总体均值的90%置信区间。 

b . 建立总体均值的95%置信区间。 

c . 建立总体均值的99%置信区间。 

应用 

17. 在对一种新生产方法进行检验时，随机选取了 18名雇员并要求他们试用该方法。这 
18个雇员的样本平均生产率为每小时80件，样本标准差为每小时10件。假定新方法 

自测题 

下雇员总体的生产率具有正态分布，计算在新方法下总体平均生产率的90%和95% 
区间估计 D 

18. 《今日美国》对出租汽车的汽油价格进行了一项研究，在12个主要机场得到了下面的每加仑 
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汽油价格 （USA Today ，April 4, 2000)： > 

1.58 1.53 L 60 1.55 1.80 1.75 1.58 1.62 1.69 1.21 1.50 1.55 

a . 总体平均汽油价格的点估计是多少？ 

b . 总体汽油价格的标准差是多少？ 

c . 假定总体汽油价格具有正态分布，总体平均汽油价格的95%置信区间估计是什么？ 


19. 



CD 光盘数据 
TVtime 


美国广告商协会记录了半小时最佳时段的电视节目中广告所占据的分钟数。选取20 
个主要广播网晚上8:30最佳时段播出的电视节目组成样本，从中得到广告时间（分 
钟）的代表性数据如下： 


6.0 

6.6 

5.8 

7.0 

6.3 

6.2 

7.2 

5.7 

6.4 

7.0 

6.5 

6.2 

6.0 

6.5 

7.2 

7.3 

7.6 

6.8 

6.0 

6.2 



假定广告时间总体具有正态分布，计算晚8:30最佳半小时时段内平均广告时间的点 
估计和95%置信区间。 

20. Skilling 分销公司的销售人员被要求每周提交一份列有本周联系客户情况的报告。一个由61份 
每周联系报告组成的样本 显示： 销售人员每周平均联系客户 22.4 次，样本标准差为5次。 

a . 利用大样本情况下的公式 （8.3) 计算销售人员总体每周联系客户的平均次数的95%置信 
区间。 

b . 假定总体的每周联系次数服从正态分布，使用自由度为60的 t 分布来建立总体平均每周联 
系次数的95%置信区间。 

c . 比较你在 ( a )、（ b ) 中的答案。评论为什么在大样本的情况下，即使 f 分布也适用，仍然允 
许采用 （ a ) 中的方法进行区间估计。 

21. 不断增长的处方药价格促使美国国会考虑制定新的法律，以迫使医药公司向老年公民提供减 
去利润的处方折扣。国会政府改革委员会提供了 一些应用最广泛的药品的处方成本 
( Newsweek , May 8, 2000) 。假设下面的数据取自一个由一种降胆固醇药物 Zocor 的处方成本构 
成的样本： 


110 112 115 99 100 98 104 126 

假定该药品总体的处方成本具有正态分布，则它的总体平均处方成本的95%置信区间估计是 
什么？ 

22. 美国人每晚的睡眠时间变化不大，总体中12%的人睡眠少于6小时，3%的人睡眠超过8小时 
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(The Macmillan Visual Almanac , 1996)。 下面这个包含 25 人的样本报告了他们每晚睡眠时间 
的 数据： 



CD 光盘数据 
Sleep 


6.9 

7.6 

6.5 

6.2 

5.3 

7.8 

7.0 

5.5 

7.6 

6.7 

7.3 

6.6 

7. 1 

6.9 

6.0 

6.8 

6.5 

7.2 

5.8 

8.6 

7.6 

7. 1 

6.0 

7.2 

7.7 


a . 美国人总体平均每晚睡眠时间的点估计是多少？ 

b . 假定总体服从正态分布，建立总体平均每晚睡眠时间的95%置信区间。 


8. 3确定样本容量 


在假定 o ■已知的大样本情况下，下式给出了总体均值的区间 估计: 


X ± Za/2 


yTn 


( 8 . 2 ) 


是边际误差。因此，我们看到 Z «/2, 总体标准差 （7 和样本容量共同确定了边际误 
差。一旦我们选择了置信系数 1- Ct ， 就能够确定 Za /2 o 然后，如果知道 （7 的值，我们就能够确 
定任意边际误差所需的样本容量/ I 。计算所需样本容量《的公式可以推导 如下： 

以五代表所希望的边际误差 


解我们得到 


E — Za/2 



yTn 




把等式的两边同时平方，我们得到样本容量的表达式为 


对沄体均值进行区间估计所需的祥本容屋 


( 8 . 6 ) 






如果在抽样之前就选择了所希望的边际误差，则本节的方法可用于确定能够满足边 
际误差要求的样本容量。 
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该样本容量能够在给定的置信水平下，提供所希望的边际误差。 

在公式 (8.6) 中，五代_使用者可接受的边际误差，& /2 的值直接由用于建立区间估计的置信 
水平确定。虽然必须要考到使用者的因素，但95%的置信水平仍是最常选择的值（以。 25 = 
1.96) 0 

最后，公式 (8. 6) 要求已知总体标准差 o ■的值。但在大多数情况下， cr 都是未知的。不过， 
如果我们拥有 o ■的初步值或计划值的话，我们仍可以使用公式 (8. 6)。实践中，可选择下列方法 
之一来确定 o •的 值： ‘ 

1. 使用以前由相同或类似元素构成的样本，用它的样本标准差代替^的值。 

2. 使用小规模试验研究选择一个初步样本，把来自初步样本的样本标准差作为 c 的计划 
值 使用。 

3. 利用判断或者“最佳猜测”确定0■的值。例如，我们可以从估计总体的最大和最小数据值 
开始。把估计的最大和最小值之差作为数据极差的估计值，最后，我们往往建议用极差除 
以4作为标准差的粗略估计，也就是 a 的一个可接受的计划值。 


在确定样本容量之前必须先确定总体标准差 o ■的计划值。此处我们讨论了三种能够 
获得计划值的方法。 


让我们考虑下面的例子，以说明如何使用公式 (8. 6) 来确定样本容量。有一项研究调查了在美 
国租赁汽车的支出，该调查发现租赁一辆中型汽车的支出大约是每天55美元。假设进行该项研究 
的组织想要再进行一项新研究，以估计在美国租赁一辆中型汽车的总体平均每日支出。在设计这 
项新研究时，项目主管已经规定了边际误差为2美元，置信水平为95%。 

使用公式（8.6)，我们看到项目主管已经规定了边际误差£ = 2, 95%的置信水平对应的 
z 0 . 025 = 1. 96。 于是，为了计算所要求的样本容量，我们仅需要再找到总体标准差 o ■的计划值。为 
此，一个分析人员检查了来自原始研究的样本数据并且发现每日租赁支出的样本标准差是 9. 65美 
元。把该值作为^的计划值，我们有 

( za / iYo 2 ^ L 96 2 x 9. 65 2 
n _ 於 - 2 2 一 89. 43 


公式 (8. 6) 提供了满足希望的边际误差要求的最小样本容量。如果计算出来的值不是 
整数，可取整到下一个整数值作为推荐的样本容量。 

于是，为了满足项目主管要求的2美元边际误差，新研究需要的样本容量至少为 89. 43次中型汽 
车租赁。当得到的 n 不是整数时，我们将其取整到下一个整数值。于是，建议的样本容量为90 
次中型汽车 租赁。 
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方法 

23. 为了得到边际误差为5的95%置信区间，应该选择多大的样本容量？假定总体标准差是25。 

24. 估计某数据集的极差为36。 

a . 总体标准差的计划值是多少？ 

自测题 

b . 使用95%的置信度，为使边际误差为3应选择多大的样本容量？ 

c . 使用95%的置信度，为使边际误差为2应选择多大的样本容量？ 

应用 

25^ _ 参见 8.2 节 Scheer 工业公司的例子。以 cr = 6. 82天作为总体标准差的计划值。 

a . 假定置信度为95%，为使边际误差为 1.5 天，需要多大的样本容量？ 

b . 如果把精度设定为90%的置信水平，为使边际误差为2天，需要多大的样本容量？ 

26. 根据《新娘》杂志的报道，婚礼的平均支出为19 000美元 April 17, 2000)。假定 
总体标准差为9400美元，《新娘》杂志计划使用一个年度调查来监测婚礼的支出，以95%为 
置信度。 

a . 如果需要的边际误差为1000美元的话，则样本容量应为多少？ 

b . 如果需要的边际误差为500美元的话，则#本容量应为多少？ 

c . 如果需要的边际误差为200美元的话，则样本容量应为多少？ 

27. 拥有工商管理学位的大学毕业生起始年薪的标准差被认为大约是2 000美元。假设需要求得平 
均起始年薪的95%置信区间估计，当希望的边际误差分别为下列数值时，应选择多大的样本 
容量？ 

a . 500美元。 

b . 200美元。 

c . 100美元。 

28. RealFacts 是一家房地产研究公司，它提供了洛杉矶地区的公寓平均月租金 （iLos Angeles Times ， 
August 1，1999)。假定总体标准差为 220 美元，需要的边际误差为50美元。 

a . 对于总体平均租金的90%置信区间估计，样本容量应为多少？ 

b . 对于总体平均租金的95%置信区间估计，样本容量应为多少？ 

c . 对于总体平均租金的99%置信区间估计，样本容量应为多少？ 
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丄如果需要的边际误差不变，当置信水平增大时，样本容量将如何变化? 


29. 1998 Information Please Almanac 报道了美国15个最大城市的居民上班途中花费时间的数据。假 
定利用由旧金山的居民组成的初步简单随机样本，得到总体标准差的计划值为 6. 25分钟。 

a . 如果我们想在边际误差为2分钟的情况下，估计旧金山居民总体的平均上班途中时间，应 
该使用多大的样本容量？假设置信度为95%。 

b . 如果我们想在边际误差为1分钟的情况下，估计旧金山居民总体的平均上班途中时间，应 
该使用多大的样本容量？假设置信度为95%。 

30, 在纽约证交所上市股票的市盈率样本的标准差为 s =7.8 ( The Wall Street Journal 9 March 19, 
1998)。 假定我们对估计纽约证交所所有股票的总体平均市盈率感兴趣。如果我们需要的边际 
误差为2的话，样本中应包括多少只股票？使用95%的置信度。 


8.4 总、体比例的区间估计 


在第 7 章我们介绍过样本比例 p 是总体比例的无偏估计量，并且在大样本的情况下， p 的 
抽样分布可以用正态概率分布来近似，如图 8. 9 所示。通过回忆我们知道在 Tip 和 71(1- />) 都大 
于等于 5 的大样本条件下，正态分布才能作为？抽样分布的近似。当我们使用样本比例戶估计总体 
比例/>时，可以利用^的抽样分布对抽样误差进行概率描述。这时，抽样误差就定义为^和/>之 
奉的绝对值，记作 I 戶-/)丨。 

当样本容量较大时，对抽样误差可做如下的精度 描述： 

样本比例带来的抽样误差小于等于%的概率为1 _ a 。 于是%的值即为比例的标准误差。 
一旦我们知道了边际误差我们把 f 加减边际误差，就能够得到总体比例的区间估 



图 8 . 9 当 np 多 5 且 ra(l - p ) 多5时，戶抽样分布的正态近似的抽样分布 



计。下面的公式给出了这样的区间 估计: 
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户 土 ^ a /2 


式中的是置信系数。由于％=如(卜^八，我们能够把公式 (8. 7) 重新表达为 


f 土 Za/2 


f P(l _Jg) 


n 


(8.7) 


( 8 . 8 ) 


为了使用公式 (8. 8) 建立总体比例 P 的区间估计，需要知道 P 的值。但由于 p 的值还需要我 
们估计，故只能用样本比例 f 代替总体比例置信区间估计的一般表达式如下 


当为样本比例扩展置信区间时，％可用作样本比例的标准 Zan 布 ( l —- p )/ n 的值提供 
了误差的边际值。 






总体比例的区间估计 

P ± Za / 2 yp ^^ (8.9) 

式中的 1- a 是置信系数， Za /2 是与标准正态概率分布的上侧面积 a/2 相对应的 Z 值。 

我们使用下面的例子来说明边际误差和总体比例区间估计的计算过程。 Ferrell Calvillo Commu- 
nications 公司对902名国内高尔夫球女选手进行了一项调查，以了解女选手怎样看待自己在国内 
比赛的赛程安排。调査结果显示，有397名女选手对有下午茶时间感到满意。于是对取得下午茶 
时间感到满意的高尔夫女选手总体比例的点估计为397/902 =0.44。使用公式 （8. 9) 和95%的置 
信水平，我们有 


/> 土 Za/2 




-p) 


即 


0. 44 ± 1. 96 


10 . 44(1 -0.44) 
V 902 


0. 44 ± 0. 032 4 

因此，边际误差为0.0324,总体比例的95%置信区间估计是 （0.407 6, 0.4724) 。使用百分比 
表示，调查结果能够使我们以95%的置信度认为所有女选手中有 40. 76%到 47. 24%的人对取得 
下午茶时间感到满意。 


* 的无偏估计是列 l-p)/U-l), 则在公式 (8.9) 中应该用 作 ( A - p ) 八 n -1) 代替 Vp(l -p)/ri。 但是在对总体比例进行 

估计时，我们通常使用的都是大样本，这时分母即使用/I,所产生的偏差也不会引起很大麻烦。所以对于使用 a 代替 n -1 
造成的结果数值上的差别，可以忽略不计。 
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确定样本容量 

让我们来考虑这样一个 问题： 在给定的精度水平下，为了取得总体比例的估计值应该选择多 
大的样本容量？计算 p 的区间估计时确定样本容量的原理与 8. 3节估计总体均值时确定样本容量 
的原理相类似。 

在本节的前面部分我们曾经指出，与总体比例的估计值相联系的边际误差是，由于 
< r P = 如 < J ^ p )/ n ，故边际误差由的值、总体比例 广和样 本容量71共同决定。当置信系数 
1-《—定时，也就确定了 z « /2 的值。然后，对于总体比例 p 的某特定值，边际误差就由样本容 
量 n 最后确定。样本容量越大，边际误差就越小，精度也就越好。 

令五代表所希望的边际误差 



解出〃，我们得到下面的样本容量 公式: 



在公式 （8. 10) 中，使用者已经规定了希望的边际误差五，在大多数情况下， £ = 0.10 或更 
小。使用者还规定了置信水平，于是也就确定了对应的值。最后，由于总体比例 p 是未 
知的，使用公式 （8.10) 需要知道 P 的计划值。在实践中，通过下列方法之一，我们能够选定计 
划值。 

1. 使用来自以前样本的样本比例，该样本要由与当前样本相同或类似的元素构成。 

2. 使用小规模试验研究来选择初步样本。来自该样本的样本比例可以用作 p 的计划值。 

3. 使用判断或“最佳猜测”作为 P 的值。 

4. 如果以上三种方法均不适用，则以 P =0.50 作为计划值。 

因为总体比例 p 是需要我们从样本中估计的，为了使用公式 (8.10) 就必须得到 p 的 
计划值。此处介绍了四种取得计划值的方法。 


让我们回到对女高尔夫球选手的调査上来，假设公司还想进行一项新的调査，以估计对取得 
下午茶时间感到满意的女选手的总体比例。如果调查主管需要在边际误差为 0.025, 置信度为 
95%的条件下估计总体比例的话，他应该选择多大的样本容量？当五 = 0.025 且 z « /2 = 1.96 时， 

我们需要 P 的计划值以回答样本容量问题。利用以前的调查结果 @=0. 44作为 P 的计划值，把数 
据代入公式 (8. 10), 我们有 
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—( Zw ) 2 p (1 - p ) 1.96 2 x 0. 44 x (1 -0.44) , ^ ^ 

n _ E 2 - 0. 025 2 - 1 514. 51 

于是，样本容量至少必须达到 1514.51 名高尔夫选手，才能满足边际误差的要求。取整到下一个 
整数值，则最终的样本容量为1515人。 

上面的第四种方法建议采用/> = 0.50作为 p 的计划值。在无法取得其他信息的情况下，往往 
采用该值。为了理解这样做的理由，注意公式 (8. 10) 的分子显示出样本容量与 p ( l - p ) 的数值成 
正比， p ( l - p ) 越大则样本容量越大。表 8.5 给出了 p ( l - p ) 的一些可能值。注意到当 p =0,50 
时， Ml - p ) 的值达到最大。因此，在我们无法确定 p 的恰当计划值的情况下， p =0.50 将产生 
最大的样本容量。所以出于安全或者保守的考虑，我们建议采用最大的可能样本容量。即使最终 
的比例不是0.50,得到的精度也要好于预期。于是，当我们采用 p =0.50 时，我们能够保证样本 
容量足够得到希望的边际误差。 


如果在调查中询问许多关于比例的问题，我们往往采用 p =0.50 作为样本容量计算 
的计划值。 


在该例子中，如果采用 p = 0.50 时计划值，则我们得到样本容量为 


( z ^ ypjl - p ) _ 1.96 2 xp . 50 X (1 - o . 50) 
E 2 一 0. 025 2 — 


=1 536. 64 


应该推荐比该数稍大一点的整数1 537个女高尔夫选手。 


表 8. 5 p ( l - p ) 的一些可能值 


P 

piX — p) 


0. 10 

0. 10x0. 90=0.09 

■ 

0.30 

0. 30x0. 70=0.21 


0. 40 

0. 40x0. 60=0.24 


0. 50 

0. 50x0. 50=0- 25 <- 

p(l p ) 的最大值 

0. 60 

0. 60 x 0.40 = 0.24 


0.70 

0. 70x0. 30 = 0.21 


0.90 

0. 90x0 ‘ 10=0. 09 




用来估计总体比例的边际误差几乎总是 或 0.04。 根据这样的边际误差，公式 （8.10) 
0. 10或更小。在 Gallup 和 Harris 等组织进行的 所计算出的样本容量几乎总是足够大的，能够 
全国民意测验中，报告的边际误差通常为 0. 03 满足 rap 多 5 和 jrz(l - /?) >5 的大样本要求。 
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方法 

31. 一个由400个元素组成的简单随机样本包含100个“是”的回答。 

a . 总体中回答“是”的比例的点估计是多少？ 

自测题 

b . 比例的标准误差内是多少？ 

c . 计算总体比例的95%置信区间。 

32. 一个包含800个元素的简单随机样本的样本比例为 p = 0.70。 

a . 计算总体比例的90%置信区间。 

b . 计算总体比例的95%置信区间。 

33. 在一项调查中，总体比例 p 的计划值是0.35。则当边际误差为 0.05 时，为了得到总体比例 
的95%置信区间，应取多大的样本容量？ 

34. 在95%的置信度下，为了使总体比例估计值的边际误差为0.03,应选用多大的样本容量？假 

设无法得到过去的数据来建立 P 的计划值。 ’ 

应用 

35. 一项《时代》 / CNN 民意测验向814名成年人询问他们对于美国国内事务状况的看法。提出 
的问题是：你认为目前美国的状况良好吗？总共有562人对问题回答了 “是”。 ( Time , August 
11，1997) 0 

a . 认为目前状况良好的成年人总体比例的点估计是多少？ 

b . 在90%的置信水平下，边际误差是多少？ 

c . 认为目前状况良好的成年人总体比例的90%置信区间是什么？ 

36. 人力资源管理协会的一项调查询问了 346名求职者，为什么员工如此频繁地变换工作 （TTie 
Wall Street Journal , March 28, 2000)? 受调查者选择最多 （152 次）的答案是“别处更高的补 
偿” 。 

a . 求职者把“别处更高的补偿”作为更换工作原因的总体比例的点估计是多少？ 

b . 总体比例的95%置信区间估计是什么？ 

37. Wirthlin Worldwide 进行了一项调查，收集客户对零售商店服务质量的评价数据，结果发现有 
28%的美国人感到现在的服务比两年前要好 （ t / MroAy，January 20, 1998)。如果样本中包括 
650名成年人，建立成年人中认为现在的服务好于两年前的总体比例的95%置信区间。 



第 8 章区间估计 337 

鬌 

38. ESPN Sports Zone 网站所收集的使用者简报数据显示，有26%的使用者为女性 （<7 S/l Today , 

January 21, 1998) 0 假设该百分比是来自一个包括400名使用者的样本。 

a . 在95%置信水平下，女性使用者的估计比例的边际误差是多少？ 

b . 女性使用者总体比例的95%置信区间是什么？ 

c . 如果需要的边际误差为3%,则应选取多大的样本容量？ 

39. 雇员利益研究会进行的一项调查探索了小雇主向他们的雇员提供退休计划的原因 
謙二多 (USA Today , April 4, 2000)。有33%的被调查小雇主认为是“为了具有竞争优势以 

自测题 ，， 

招聘和留住好的员 工” 这个原因。 

a . 如果调查的目的是以3%的边际误差估计在提供退休计划的小雇主总体中，原因是 
“为了在招聘和留人上具有竞争优势”的人所占的比例，且置信水平为95%,问应 
取多大的样本容量？ 

b . 在99%的置信水平下，重复计算 ( a ) 中的问题。 

40. 一项 Associated Press 民意测验调查了 1018名成年人，结果发现255人计划在1998年的假期 
中花费比往年同期更少的钱来购买礼，品 （ICR Media survey , November 13 -17, 1998)。 

a . 所有成年人中，计划在1998年假期花费更少的钱用于购买礼品的人所占比例的点估计是多 
少？ 

b . 在95%置信水平下，该估计的边际误差是多少？ 

41. 一项 American Express 零售调查发现，有16%的美国客户在1999年假期中曾经利用互联网购 
买礼品 (USA Today ，January 18, 2000)。如果有1 285名客户接受了调查，问边际误差是多 
少？在95%的置信水平下，计算总体中利用互联网购买礼品的客户所占比例的区间估计。 

42. 一项关于 2000 年总统竞选的 《今曰美国》 / CNN / Gallup 民意测验在 6 月选取了 491 名可能的投 
票人作为样本 （<7 S 4 7 V ^ ay，June 9,2000)。民意测验的主要目的是估计在投票人的总体中，支 
持每个候选人的比例。假设总体比例的计划值为 p =0. 50, 置信水平为 95%。 

a . 使用 p =0. 50, 那么在 6 月的民意测验中计划的边际误差是多少？ 

b . 随着日益临近11月的大选，需要更好的精度和更小的边际误差。假定下列边际误差是美 
国选举期间的调查所要求的，计算每一次调查的样本容量。 


调查 

边际误差 

9月 

0. 04 

10月 

0. 03 

11月 

0. 02 

大选曰前 

0.01 


43. 美国戏剧家与制作人联盟对百老汇剧院的观众进行了连续的追踪调查，以提供关于百老汇观 
众的最新信息说 ， Winter 1997)。每周该组织在百老汇轮流上演的剧目中随机地把一份一 
页的调查表分发到座位上去，该调查问卷仅用5分钟即可答完，使得观众能够与戏剧界进行 
交流。 
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a . 如果对任意总体比例要求的边际误差为0.04,则应选取多大的样本容量？设置信水平为 
95%,计划值为 p =0. 50 o 

b . 假定已经使用了 （ a ) 中建议的样本容量，并且某一周的调查显示观众中有445名不住在纽 
约市。求百老汇的观众总体中，不住在纽约市的人所占比例的点估计。 

c . 利用 （ b ) 中的数据，计算百老汇的观众中不住在纽约市的人所占比例的95%置信区间。 



本章我们介绍了建立总体均值 M 和总体比例 P 的置信区间的方法。建立置信区间的目的是提 
供估计精度的信息。置信区间越宽，表示精度越低，这时，可以增加样本容量以减少置信区间的 
宽度，提高估计的精度。 

用来计算总体均值区间估计的表达式依赖于样本容量的大 U 多 30) 小 （ n <30), 以及总体标准 
差是能够被假设为已知还是要用样本标准差 s 估计，有时还依赖于总体是否具有正态或近似正态 
的概率分布。如果样本容量较大的话，对总体的分布不需做任何假设，在区间估计的计算过程中 
使用 Za / 2 o 如果样本容量较小的话，为了求得 M 的区间估计，总体必须具有正态或近似正态的概 
率分布。这时如果总体具有正态分布的话，在假定 （7 已知的情况下，计算区间估计时使用二 /2; 
而在用样本标准差 s 估计 （7 的情况下，则使用1 2 。最后，当样本容量较小并且正态总体假设不 
符合实际情况时，我们建议把样本容量增加到 n >30, 以便于使用大样本区间估计方法。 

另外，我们还说明了如何确定样本容量，才能使 M 和 P 的区间估计具有特定的边际误差。在 
实践中，进行总体比例的区间估计时所要求的样本容量通常较大。因此，我们给出了在 np 多5且 
n ( l - p )^5 的条件下，计算总体比例的大样本区间估计公式。 


木语辞义 


区间 估计： 一种总体参数的估计方法，它给出了一个被认为包含了参数值在内的区间。表达形式 
为点估计值±边际误差。 

边际 误差： 为了建立总体参数的区间估计，点估计值需要加上和减去的那个值。 

抽样 误差： 无偏点估计量，比如样本均值5与对应的总体参数，比如总体均值这二者数值之 
' 差的绝对值被称为抽样误差。在参数为总体均值的情况下，抽样误差是 b - Ml ; 在参 
数为总体比例的情况下，抽样误差是 Ip - pl 。 

精度 表述： 对抽样误差所作的概率描述。 

置信 水平： 与区间估计相联系的置信度。例如，如果利用某区间估计方法得到的全部区间中有 
95%的区间包含总体参数，则该区间估计被称为是在95%的置信水平下构建的。 

置信 系数： 被表示为小数形式的置信水平。例如， 0.95 就是95%置信水平的置信系数。 
f 分布： 一系列的概率分布，当使用样本标准差 s 估计总体标准差 （7, 并且总体具有正态或近似 
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正态的概率分布时，能够利用它来建立总体均值的区间估计。 

自 由度： 《分布的一个参数。我们在计算总体均值区间估计时使用的《分布具有 n -1 的自由度， 
其中的 n 是简单随机样本的容量。 



( 8 . 1 ) 

( 8 . 2 ) 

(8.3) 

(8.5) 

( 8 . 6 ) 

(» t 9) 

( 8 . 10 } 




340 商务与经济统计 




44. 一项对首次购房者的调查发现，家庭年收入的平均值是50 000美元 （ CiVBC . com，July 11， 
2000)。假设该调查使用的样本包括400位首次购房者，收入的样本标准差为20 500美元。 

a . 在95%的置信水平下，该项研究的边际误差是多少？ 

b . 首次购房者总体的平均家庭年收入的95%置信区间是什么？ 

45. 由美国汽车协会进行的一项调查显示，度假时一个四口之家平均日花费为 215. 60美元。假定 
选取去尼亚加拉大瀑布度假的64个四口之家为样本，其样本均值为 252.45 美元，样本标准 
差为 74. 50美元。 

a . 求去尼亚加拉大瀑布度假的四口之家总体平均日花费的95%置信区间。 

b . 使用 （ a ) 中求出的置信区间，去尼亚加拉大瀑布度假的四口之家日花费的均值与美国汽车协 
会所报告的均值是否存在差别？请解释。 


46. 



CD 光盘数据 
ActTemps 


在 Accountemps 进行的一项调查中，要求一个由 200 名管理人员组成的样本提供每天 
办公室的职员们用于归位误标、误放项目所浪费的分钟数数据 （ Asfoumiirig 如 erages，by 
D. D. Dauphinais and K. Droste, 1995) 0 该项调查的数据包含在数据集 ActTemps 中。 
a. 使用 ActTemps 中的数据，建立办公室职员每天用于归位误标、误放项目所浪费的总 
体平均时间的点估计。 


b . 样本标准差是多少？ 


c . 总体每天平均浪费时间的95%置信区间是什么？ 


47. Arthur D.Little 公司估计一个家庭所收到的邮件中大约有 70%是广告 （7 Ym €，July 14, 1997 )。 
一个包括20户家庭的样本显示了他们在一个星期内收到的邮件数和所收到的广告数的数据。 



CD 光盘数据 
Mail 


家庭编号 

广告数 

邮件总数 

家庭编号 

广告数 

邮件总数 

1 

24 

35 

11 

13 

19 

2 

9 

14 

12 

16 

28 

3 

18 

30 

• 13 

20 

27 

4 

9 

12 

14 

17 

22 

5 

15 

28 

15 

21 

24 

6 

23 

33 

16 

21 

33 

7 

13 

20 

17 

15 

25 

8 

17 

20 

18 

15 

24 

9 

20 

23 

19 

18 

24 

10 

20 

25 

20 

12 

16 


a. 


家庭总体每周收到的广告平均份数的点估计是多少？该总体均值的95%置信区间 
是什么？ 
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b . 家庭总体每周收到的邮件平均份数的点估计是多少？该总体平均值的95%置信区间是什 
么？ 

c . 使用 （ a ) 和 ( b ) 中求出的点估计值，这些估计值与大约70%的邮件是广告的说法相一致吗？ 

48. 《华尔街日报》的货币与投资部分总结了每天的股票交易、外汇、期权、贸易与期货等等的投 
资情况。在纽约证交所部分提供了每只股票的52周最高价、52周最低价、红利率、收益、市 
盈率、每日成交量、每日最高价、每日最低价、每日收盘价和每日净变化的数据。每只股票 
的市盈率指标是用该股票的价格除以公司在最近四个季度所报告的每股收益而计算出来的。 
一个样本由10只从《华尔街日报 》( S e pt e mb er 29,2000) 选出的股票组成，它提供了下面的市盈 
率数据： 5, 7, 9，10，14, 23, 20，15, 3, 26。 

a . 在纽约证交所上市股票总体的平均市盈率的点估计是多少？ 

b . 在纽约证交所上市股票的总体市盈率标准差的点估计是多少？ 

c . 在95%的置信水平下，所有在纽约证交所上市股票的平均市盈率的区间估计是什么？假定 
总体具有正态分布。 

d . 评价结果的精度。 

49. 许多在大公司工作的美国人周末也要在家中工作或在办公室加班 （7 b ( ia ： x，June 18, 
1997)。在边际误差为10分钟的情况下，为了估计周末加班的平均时间应选取多大的样本容 
量？使用95%的置信区间并且假定总体标准差的计划值为45分钟。 

50. 对某型号的汽车进行了里程测试，如果需要的精度是边际误差为每加仑1英里，置信区间为 
98%,那么在测试中应该使用多少辆汽车？假设初步的里程测试显示标准差是每加仑 2.6 英 
里。 


51. 在制定病人的预约时间表时，某医疗中心想要估计一个医生花费在每个病人身上的平均时 
间。如果在 95% 的置信水平下要求边际误差为 2 分钟，那么应该选取多大的样本容量？对于 
99% 的置信水平，应选取多大的样本容量？设总体标准差的计划值为 8 分钟。 

52. 《商业周刊》第 47 个年度薪金调查列出了首席执行官的年薪加奖金数据 脱也 April 
21 ， 1997 ) 。一 个初步的样本显示标准差为 675 美元，如果我们想在边际误差为 10 万美元的 
情况下估计首席执行官总体的平均年薪加奖金，那么样本中应包括多少个首席执行官？使用 
95% 置信区间 （注： 如果数据是以千美元计，所希望的误差边际值应是五= 100 )。 

53. 根据美国国家教育统计中心的报告，有 47% 的大学生为了赚取学费和生活费而工作 （ TT ^ ram - 
pa Tribune, January 22, 1997 )。 假定该项研究选取了 450 名大学生作为样本。 

a . 计算总体中为了支付学费和生活费而工作的大学生所占比例的 95% 置信区间。 

b. 计算总体中为了支付学费和生活费而工作的大学生所占比例的 99% 置信区间。 

c . 当置信水平从 95% 增加到 99% 时，边际误差将怎样变化？ 

54. 在《今日美国》 /CNN/Gallup 对 369 对双职工父母进行的一项调查中，有 200 对父母承认，由 
于工作上的原因，他们花在子女身上的时间过少 （ f/&4 ： Tc^ay，April 10,1995 )。 
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a . 求总体中认为花在子女身上时间过少的双职工父母所占比例的点估计。 

b . 在95%的置信水平下，边际误差是多少？ 

c. 总体中认为他们花在子女身上的时间太少的双职工父母所占比例的95%置信区间估计 
是什么？ 

55. —项《时代》 /CNN 的民意测验向1400名美国成年人 询问： “你在闲暇时间愿意去哪里？”最 
多的回答是504人选择的大型商场。 

a . 总体中在闲暇时间愿意去大型商场的成年人所占比例的点估计是多少？ 

b . 在95%的置信水平下，该估计的边际误差是多少？ 

56. —家知名的银行信用卡公司想要估计月末余额不为零并且发生过利息支出的持卡人比例。假 
定在98%的置信水平下需要的边际误差为0.03。 

a . 如果预期大约有70%的持卡人月末余额不为零，应选择多大的样本容量？ 

b . 如果无法得到总体比例的估计值，应该选择多大的样本容量？ 

57. 在一项调查中，有200人被要求确认他们主要的新信息来源。其中的110人认为他们主要的 
信息来源是电视 新闻。 

a . 建立总体中认为电视新闻是他们主要新信息来源的人所占比例的95%置信区间估计。 

b . 当置信水平为95%，边际误差为 0.05 时，为了估计总体比例需要多大的样本容量？ 

58. 一项 RoperStarch 调查向 18— 29岁的雇员询问他们对于更好的健康保险和加薪两种选择，更 
喜欢哪一个 （ Today , September 5, 2000) 0 如果在500名雇员中有340人愿意选择更好的健 
康保险的话，请回答下列 问题： 

a . 18—29岁的雇员中愿意选择更好健康保险的雇员所占比例的点估计是多少？ 

b . 总体比例的95%置信区间估计是什么？ 


59. 《1997年美国统计摘要》公布了 18岁及以上人群中吸烟者的百分比。假定要设计一项调查以 
收集吸烟者和非吸烟者新的数据，对吸烟者的总体比例最好的初步估计是30%。 

a . 为了在边际误差为 0.02 时估计18岁及以上人群中吸烟者的总体比例，应选择多大的样本 
容量？使用95%的置信水平。 

b . 假定该研究使用了你在 ( a ) 中建议的样本容量，并且在其中发现了 520名吸烟者。吸烟者总 
体比例的点估计是多少？ 

c . 吸烟者总体比例的95%置信区间是什么？ 

60. 虽然航班时刻和费用是商务旅行者在选择航班时的重要考虑因素，但《今日美国》的一项 

9 

调查发现，商务旅行者把航空公司的常客优惠计划列为最重要因素 （ tz 从 April 
11，1995)。在一个 /I = 1 993名商务旅行者的样本中，有618人把常客优惠计划作为首要 
因素。 

a . 总体中在选择航班时认为常客优惠计划是首要因素的商务旅行者所占比例的点估计是多 
少？ 
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b . 建立总体比例的95%置信区间估计。 

c . 当置信水平为95%，边际误差为 0.01 时，需要多大的样本容; I ?你是否会建议《今日美 
国》提供该精度水平？为什么？ 


案例研究1 Bock 投资服务公司 

LisaRaeBock 在1994年开办了 Bock 投资服务公司 （ BIS ) ，其目标是把 BIS 办成南加州地区领 
先的货币市场咨询服务公司。为了对目前的客户提供更好的服务并且吸引新的客户，她每周制作 
一份简讯。 Lisa —直在考虑向简讯中增加一项新内容，报道对基金经理的每周电话调查结果。为 
了调查该项服务的可行性，并确定在简讯中应包含哪些类型的信息， Lisa 选择了 45家货币市场基 
金组成一个简单随机样本，所取得数据的一部分显示在表 8.6 中，它们报告了基金的净资产和过 
去7天与过去30天的收益率。在给货币市场基金经理打电话取得另外的数据以前， Lisa 决定对已 
经收集到的数据作一些初步分析。 


管理报告 

1. 使用恰当的描述性统计量来汇总货币市场基金的净资产和收益率数据。 

2. 对于货币市场基金的总体，建立其平均净资产、平均7天收益率和平均30天收益率的 
95%置信区间估计。 

3. 讨论 Lisa 在准备她的简报时，应该怎样使用这些类型的信息。 

4. 为了向客户提供最有用的信息，你建议 Lisa 再收集什么其他信息？ 


表 8. 6 


Bock 投资服务公司的数据 


货币市场基金 净资产 ( 百万美元 ) 


7 天收益率 (％) 30 天收益率 （％) 



CD 光盘数据 


Bock 


Amcore 

103.9 

4. 10 

4. 08 

Alger 

156.7 

4. 79 

4.73 

Arch MM/Trust 

496.5 

4. 17 

4. 13 

BT Instit Treas 

197.8 

4.37 

4. 32 

Benchmark Div 

2 755.4 

4.54 

4.47 

Bradford 

707.6 

3,88 

3. 83 

Capital Cash 

1.7 

4.29 

4. 22 

Cash Mgl Trust 

2 707.8 

4. 14 

4.04 

Composite 

122.8 

4. 03 

3.91 

Cowen Standby 

. 694.7 

4. 25 

4. 19 

Cortland 

217.3 

3.57 

3.51 
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( 续表 ) 


货币市场基金 

净资产 ( 百万美元） 

7 天收益率 (％) 

30 天收益率 

Declaration 

38.4 

2. 67 

2. 61 

Dreyfus 

4 832.8 

4.01 

3. 89 

Elfun 

81.7 

4.51 

4. 41 

FFB Cash 

506, 2 

4. 17 

4. 11 

Federated Master 

738.7 

4.41 

4.34 

Fidelity Cash 

13 272.8 

4.51 

4.42 

Flex-fund 

172.8 

4,60 

4.48 

Fortis 

105.6 

3.87 

3. 85 

Franklin Money 

996.8 

3.97 

3. 92 

Freedom Cash 

1 079.0 

4. 07 

4.01 

Galaxy Money 

801.4 

4. 11 

3. 96 

Government Cash 

409.4 

3.83 

3.82 

Hanover Cash 

794.3 

4.32 

4.23 

Heritage Cash 

1 008.3 

4.08 

4.00 

Infinity/ Alpha 

53.6 

3.99 

3.91 

John Hancock 

226.4 

3.93 

3. 87 

Landmark Funds 

481.3 

4. 28 

4. 26 

Liquid Cash 

388.9 

4. 61 

4.64 

Market Watch 

10.6 

4. 13 

4.05 

Merrill Lynch Money 

27 005.6 

4.24 

4. 18 

NCC Funds 

113.4 

4. 22 

4.20 

Nationwide 

517.3 

4.22 

4. 14 

Overland 

291.5 

4. 26 

4. 17 

Pierpont Money 

1 991.7 

4. 50 

4.40 

Portico Money 

161.6 

4.28 

4.20 

Prudential Money Mart 

6835.1 

4,20 

4. 16 

Reserve Primary 

1 408.8 

3.91 

3.86 

Schwab Money 

10 531.0 

4. 16 

4.07 

Smith Barney Cash 

2 947.6 

4. 16 

4. 12 

Stagecoach 

1 502.2 

4. 18 

4, 13 

Strong Money 

470.2 

4. 37 

4. 29 

Transamerica Cash 

175.5 

4.20 

4. 19 

United Cash 

323.7 

3. 96 

3.89 

Woodward Money 

1 330.0 

4.24 

4.21 


资料来源： Barron’s ， October 3, 1994 。 
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案例研究2 GULF 房地产公司 

GULF 房地产公司位于佛罗里达西南部，该公司宣传自己是“房地产市场的专家”，它通过收 
集公寓住宅的位置、标价、售价和售出时间数据，来监测公寓住宅的销售情况。如果一套公寓直 
接坐落在墨西哥湾旁边的话， 则 被归类 为海景公寓， 如果一套公寓只是靠近海湾的话， 则 被归类 
为非海景公寓。 从佛罗里达那不勒斯分支机构的销售服务目录中抽取样本，所取得的样本包括了 
40套海景公寓和18套非海景公寓的最新销售数据。>其中的价格以千美元为单位，表 8. 7显示了 
这些数据。 


管理报告 

1. 使用恰当的描述性统计量来汇总40套海景公寓三个变量中的每一个变量。 

2. 使用恰当的描述性统计量来汇总18套非海景公寓三个变量中的每一个变量。 


表 8 . 7 GULF 房地产公司的销售数据 


海景公寓 


非海景公寓 



CD 光盘数据 
GulfProp 


标价 

售价 

销售时间 （天 } 

标价 

售价 

销售时间 

495.0 

475.0 

130 

217.0 

217.0 

182 

379.0 

350.0 

71 

148.0 

135.5 

338 

529.0 

519.0 

85 

186.5 

179.0 

122 

552.5 

534.5 

95 

239.0 

230.0 

150 

334.9 

334.9 

119 

279.0 

267.5 

169 

550.0 

505.0 

92 

215.0 

214.0 

58 

169.9 

165.0 

197 

279.0 

259.0 

110 

210.0 

210.0 

56 

179.9 

176.5 

130 

975.0 

945.0 

73 

149.9 

144.9 

149 

314.0 

314-0 

126 

235.0 

230.0 

114 

315.0 

305.0 

88 

199.8 

192.0 

120 

885.0 

800.0 

282 

210.0 

195.0 

61 

975.0 

975.0 

100 

226.0 

212.0 

146 

469.0 

445.0 

56 

149.9 

146.5 

137 

329.0 

305.0 

49 

160.0 

160.0 

281 

365. 0 

330.0 

48 

322.0 

292.5 

63 

332.0 

312.0 

88 

187,5 

179.0 

48 

520.0 

495.0 

161 

247.0 

227.0 

52 


本 


基于那不勒斯 MLS 的公寓销售数据 (Coldwell Banker，June 2000 )。 
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( 续表 ) 


海景公寓 


标价 

售价 

销售时间（天 } 

425.0 

405, 0 

149 

675.0 

669.0 

142 

409.0 

400.0 

28 

649.0 

649.0 

29 

319.0 

305.0 

140 

425.0 

410, 0 

85 

359.0 

340.0 

107 

469.0 

449.0 

72 

895.0 

875.0 

129 

439.0 

430.0 

160 

435.0 

400.0 

206 

235.0 

227.0 

91 

638.0 

618.0 

100 

629.0 

600.0 

97 

329.0 

309,0 

114 

595.0 

555.0 

45 

339.0 

315.0 

150 

215.0 

200.0 

48 

395.0 

375.0 

135 

449.0 

425.0 

53 

499.0 

465.0 

86 

439.0 

428.5 

158 


3. 比较你的汇总结果。对于任何能够帮助房地产公司更好理解公寓住宅市场的具体统计结果 
进行讨论。 

4. 建立海景公寓总体平均售价和总体平均售出时间的95%置信区间估计，并解释你的结果。 

5. 建立非海景公寓的总体平均售价和总体平均售出时间的95%置信区间估计，并解释你 
的结果。 

6. 假定分支机构的经理要求在95%的置信水平下以40 000美元的边际误差估计海景公寓的 
总体平均售价，以15 000美元的边际误差估计非海景公寓的总体平均售价，则应该选取多 
大的样本容量？ 

7. 海湾房地产公司最近签署了两项新的代理销售 合同： 一套标价为589 000美元的海景公 
寓和一套标价为285⑻0美元的非海景公寓。你对最终售价以及所需销售时间的估计值 
是多少？ 
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案例研究3大都会研究公司 


大都会研究公司是一家消费者研究组织，它设计各种调查以评估消费者得到的产品和服务。 
在一项研究中，该公司希望了解消费者对底特律某个主要汽车厂商所产汽车性能的满意度。分发 
给该厂商的一种大型轿车用户的调査问卷发现了一些对该车型早期传动问题的抱怨。为了进一步 
了解传动故障的情况，大都会公司采用了底特律地区一家传动系统修理企业提供的传动系统实际 
维修记录为样本。下面的数据显示了 50辆汽车在发生传动故障时已经行驶的英 里数： 



CD 光盘数据 


Auto 


85 

092 

32 

609 

39 

323 

89 

641 

64 

342 

61 

978 

74 

276 

66 

998 

74 

425 

67 

202 

37 

831 

89 

341 

77 

539 

88 

798 


59 

465 

77 

437 

94 

219 

116 

803 

67 

998 

59 

817 

40 

001 

72 

069 

118 

444 

53 

500 

73 

341 

85 

288 


32 

534 

64 

090 

92 

857 

63 

436 

101 

769 

95 

774 

25 

066 

77 

098 

79 

294 

64 

544 

138 

114 

53 

402 


32 

464 

59 

902 

65 

605 

85 

861 

121 

352 

69 

568 

69 

922 

35 

662 

86 

813 

116 

269 

85 

586 

82 

256 


管理报告 

1. 使用恰当的描述性统计量来汇总传动故障数据。 

2. 对于有传动故障的汽车总体，建立其在发生传动故障时已经行驶的平均英里数的95%置信区间。 

3. 根据一些汽车用户已经经历过早期传动故障的说法，讨论你得到的统计结果的含义。 

4. 如果该研究公司想要在95%的置信区间下以5 000英里的边际误差估计总体在发生故障前 
行驶的平均英里数，那么应该选取多少维修记录组成样本？ 

5. 为了更加全面地评价传动故障问题，你还想收集其他什么信息？ 


附录 8. 1用 Minitab 求总体均值的区间估计 


我们分成四种不同的情况说明如何使用 Minitab 建立总体均值的置信区间。 


假定 O * 已知的大样本情况 



CD 光盘数据 
CJW 


我们使用 8.1 节的 CJW 例子来说明这种情况。假设总体标准差已知为 a * = 20, 
100位 CJW 客户的样本满意度分数已经输人 Minitab 工作表的 C 1 列。我们能够使用下 
列步骤计算总体均值的95%置信区间 估计： 

步骤 1 .选择 Stat 下拉菜单； 
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步骤 2.选择 Basic Statistics 选项； 

步骤 3. 选择 1 -Sample Z ; 

步骤 4.当 1 -Sample Z 对话框出 现时： 

在 Variables 框中输入 Cl ; 

在 Sigma 框中输入20; 

步骤 5. 点击 OK 。 

Minitab 的默认值是 95% 的置信水平。为了指定其他的置信水平，以 90% 为例，应该在步骤 4 
中加入下面 内容： 


选择 Options ； 

当 1 -Sample Z 对话框出 现时： 

在 Confidence level 框中输入90; 

点击 0 K 。 


用 S 估计 C 的大样本情况 



CD 光盘数据 
Balance 


我们使用表 8. 2中85户家庭样本的信用卡余额数据来说明这种情况。首先把数 
据输入 Minitab 工作表的 C 1 列，在这种情况下，总体标准差 o ■是未知的，只能用样 
本标准差 s 估计。计算样本标准差的步骤 如下： 

步骤 1 . 选择 Calc 下拉菜单； 

步骤 2. 选择 Column Statistics 选项； 


步骤 3•当 Column Statistics 对话框出现时: 


选择 Standard deviation 选项; 


在 Input variable 框 中输入 C 1 ; 

在 Store result in 框 中输入 stdev ; 


点击 OK 。 


输出结果是样本标准差为3 058,它作为 stdev 储存在 Minitab 中。 

然后再按照假定 a 已知的大样本情况下已经描述过的步骤，就能够得到总体均值的区间估 
计，惟一的变化在步骤 4, 在这里用样本标准差$估计 a 。 在 Sigma 框中输入 stdev 即可完成操作。 

假定已知的小样本情况 

假定 o ■已知的小样本情况使用与前面介绍过的假定 O ■已知的大样本情况相同的步骤。 


用 S 估计 CT 的小样本情况 

我们使用表 8. 4中15名雇员样本的培训时间来说明这种情况。首先把数据输入 Minitab 工作 
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CD 光盘数据 
Training 


表的 Cl 列，在这个小样本情况下，由于总体标准差 o •未知，只能用样本标准差 s 
估计它。使用下面的步骤能够计算总体均值的95%置信区间 估计： 

步骤 1 . 选择 Stat 下拉 菜单； 

步骤 2. 选择 Basic Statistics 选项； 

步骤 3. 选择 1 -Sample t ; 

步骤 4. 当 1 -Sample t 对话框出现时： 

在 Variables 框中输入 Cl ; 

步骤 5. 点击 OK 。 


Minitab 的默认值是95%置信水平。为了指定其他的置信水平，以90%为例，向步骤4中加 
入下列内容： 


选择 Options 选项； 

当1 -Sample t 对话框出现时： 

在 Confidence level 框中输人90; 

点击 OK 。 


附录 8. 2用 Excel 进行总体均值的区间估计 


我们分四种不同的情况说明如何使用 Excel 建立总体均值的置信区间。 


假定 a 已知的大样本情况 

我们以 8.1 节的 CJW 为例说明这种情况。假定已知总体标准差 cr = 20。 首先把数 
据输入 Excel 工作表，即把标志 Score 输入单元格 A 1 ,把100名 CJW 客户样本的满意 
度分数输入单元格 A 2: A 101 o 然后使用下面的步骤就能够计算总体均值的95%置信区 
间估计： 

步骤 1 . 在单元格 C 2 计算样本 均值； 

= AVERAGE ( A 2: A 101) 

步骤 2. 在单元格 C 3 计算边际误差 •； 

= CONFIDENCE (0. 05, 20, 100) 

步骤 3. 在单元格 C 4 计算区间估计的 下限； 

= C 2 - C 3 



CD 光盘数据 
CJW 


* 边际误差函数的一般形式为 = CONFIDENCE ( alpha , 标准差，样本容量），其中的 alpha = 1 -置信系数 = 1 -0. 95 = 0. 05 o 
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步骤 4. 在单元格 C 5 计算区间估计的 上限; 

= C 2 + C 3 

加上标志后的格式化输出结果显示在图 8. 10中。 


注 ：10 — 95 行隐藏了。 


图 8. 10 CJW 总体均值区间估计的 Excel 输出结果 

用 S 估计 O " 的大样本情况 

我们使用表 8. 2的信用卡余额数据来说明这种情况。首先把数据输入 Excel 工作 
表，即把标志 Balance 输入单元格 A 1， ¥ 85户家庭样本的信用卡余额输入单元格 A 2: 
A 86。 因为总体标准差 cr 未知，只能用样本标准差 s 估计它。在单元格 C 1 计算样本 
标 准差： 

Balance 

= STDEY ( A 2: A 86) 

然后使用与假定 a 已知的大样本情况相同的步骤来建立区间估计。 

步骤 1 . 在单元格 C 2 计算样本 均值； 

= AVERAGE (A2 ： A86) 

步骤 2. 在单元格 C 3 计算边际 误差； 

= CONFIDENCES 05, Cl , 85) 

步骤 2 的 Confidence 函数使用 Cl 是由于用来估计 cr 的样本标准差储存 
在单元格 C 1 中。 

步骤 3. 在单元格 C 4 计算区间估计的 下限； 
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= C2 - C3 

步骤 4. 在单元格 C 5 计算区间估计的 上限; 


= C2 + C3 

样本标准差显示在单元格 Cl 中，其他的输出结果与图 8. 10的输出结果相似。 

假定已知的小样本情况 

如果总体具有正态分布的假设是恰当的，则假定 o ■已知的小样本情况与前面介绍过的假定 o * 
已知的大样本情况使用同样的步骤。 


用 S 估计^的小样本情况 



CD 光盘数据 
1 raining 


表 8.4 的数据显示了 15名雇员样本的培训时间。首先把这些数据输入 Excel 工作 
表，即把标志 Time 输入单元格 A 1, 把培训时间输入单元格 A 2: A 16。 在这种情况 
下，由于总体标准差 o •未知，只能用样本标准差 s 估计它。我们能够使用下列步骤来 
计算总体均值的95%置信区间 估计： 


步骤 1. 选择 Tools 下拉 菜单； 

步骤 2. 选择 Data Analysis 选项； 

步骤 3 .当 Data Analysis 对话框出现时： 

选择 Descriptive Statistics 选项； 

点击 OK 。 

步骤4.当 Descriptive Statistics 对话框出现时： 

在 Input Range 框中输入 Al: A16; 

选择 Labels in First Row ； 

选择 Summary Statistics ； 

选择 Confidence Level for Mean 并且在框中输入 95; 
选择 Output Range 并且在框中输入 B 1; 

点击 OK 。 


样本均值 53. 87 显示在单元格 C3 内，边际误差 3.78 显示在单元格 C16 中。注意 Excel 中边 
际误差的标志是 Confidence Level(95 % ) 0 通过向样本均值减去和加上边际误差，就能够得到置信 
区间。公式 =C3-C16 能够用来在单元格 C17 中设置区间下限，而公式 =C3+C16 则能够用来在 
单元格 C18 中设置区间的上限。 



假设检验 


统计 实例: HARRIS 公司 
9.1 原假设和备择假设的建立 

检验研究中的假设 
检验声明的有效性 
决策中的假设检验 
对原假设和备择假设形式的总结 

9.2 第一类错误和第二类错误 
9.3 总体均值的单侧 检验： 大样本 

检验统计量应用 
P -值的应用 

总体均值的单侧检验步骤总结 
假设检验步骤 

9.4 总体均值的双侧 检验： 大样本 
双侧检验的 p -值 
总体均值的双侧检验步骤总结 
区间估计与假设检验的关系 

9.5 总体均值的 检验彡 小样本 
p - 值和 t 分布 
双侧假设检验 
9.6 总体比例的检验 
9.7 假设检验和决策支持 
9.8 计算第二类错误的概率 
9.9 确定总体均值假设检验的样本容置 
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HARRIS 公司 * 

墨尔本，佛罗里达州 


Harris 公司是一家通信设备生产商，主要为全球 
市场提供无线电话、传播、管理和网络支持系统的产 
品和服务。这家公司在80多个国家进行销售和设 
备的售后服务。 Harris 的大多数产品，包括印制电 
路装配线、最终产品装配线都需要中批量到大批量 
的制造和检验。 

其中 RF 板装配线是公司大批量生产的产品之 
一。 每个 RF 板由16个电子元件组成，它们都焊接 
在 RF 板的表层机器铸件上。在制造阶段的焊接过 
程中，发现 RF 板上的焊接流量没有达到产品质量 
标准。对可能影响焊接过程的大量因素进行考查， 
工程师初步确定，这一焊接问题极有可能是由 RF 
板上的表层的疵点引起的。 

工程师想进一步知道 Harris 存货中表层有疵点 
的 RF 板的比例是否超过供应商所规定的值。可令 
p 代表 Harris 的 RF 存货中表层有疵点的板所占的 
比例， po 代表供应商所规定的值，建立如下 假设： 

Ho: p^po 

Ha: p>pO 

Ho 代表 Harris 存货中表层有疵点為板所占的 
比例未超过供应商所规定的值。如果上述比例可以 
接受，则工程师将需要另外寻找焊接问题的原因。 
K 表示 Hams 存货中表层有疵点的板所占的比例 


* 感谢 Harris 公司的 Richard A . Marshall 先生提供的材料。 



Harris 公司运用了假设检验解决了电路板焊接过程中的问 
题。 © CORRIS . 


超过供应商所规定的值。这时，表层的疵点很可 

能是引起焊接问题的原因，应当采取适当措施来 

找出造成存货中表层有疵点的 RF 板所占比例太 

高的原因。 ‘ 

对 Harris 存货进行抽样检验的结果表明，应 

拒绝讯，而接受札，这表明 Harris 存货中表层有 

疵点的板所占的比例超过了供应商所规定的 

值。通过对存货区域进一步调查发现， RF 板存 

储的架子受到污染是导致这一比例过高的原 

« 

因。工程师改变了 RF 板存储的环境，从而解决 
了这个问题。 

在本章中，我们将学习如何对总体均值和总体 
比例假设检验。通过对抽样样本数据分析，决定是 
否拒绝该假设。从而在研究中的假设检验、某项声 
明的有效性假设检验中以及决策检验中，可以得出 
合理解释并能采取适当的措施。 


在第7章和第8章中，我们解释了如何利用样本对总体参数进行点估计和区间估计。在本章 


中，我们将继续讨论在统计推断中如何使用假设检验来确定是否拒绝总体参数值的声明 
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在假设检验中，我们首先对总体参数作一个试验性的假设，称该试验性的假设为原假设 (null 
hypothesis ) (零假设），记作讯。然后，定义另一个与原假设的内容完全相反的假设，记 作乩， 
称之备择假设 (alternative hypothesis ) 。 假设检验的过程是根据样本数据对这两个对立的假设丑 0 和 
H a 进行检验。 


9.1 原假设和备择假设的建立 

在一些应用中，如何建立原假设和备择假设并不是显而易见的。需要谨慎构建适当的假设， 
并且假设检验的结论是研究者或决策者所需的信息。在假设检验的过程中，建立原假设和备择假 
设的方法通常有三种情形。 


正确表达假设需要通过实践学习。在开始选择适当的假设讯和札时，会遇到一些 
困惑。本章将通过实际应用给出不同形式的执和払。 


检验研究中的假设 

对于某一汽车模型，其汽油平均效能为每加仑24英里。某一产品研究小组专门开发一种新的 
燃料喷射器来提高每加仑油料的效能。为了评估这种新型的系统，生产出几个喷射器并安装在汽 
车上，通过驾驶对所研究的问题进行检验。产品研究小组通过寻找证据来证明新的系统确实能提 
高每加仑油料的效能。在这个例子中，研究的假设是新系统的平均每加仑油料效能将超过24英 
里，即 m >24。 作为普遍的原则，研究的假设将被作为备择假设。因此，研究的原假设和备择假 
设 如下： 


Ho : 

7/a : /x > 24 

如果样本结果表明7/。没被拒绝，研究者也不能得出新的燃料喷射器效果更好的结论。这需 
要深入的研究调查和检验。然而，一旦数据结论表明丑。被拒绝，则研究者得出 i / a : ) u >24 是正确 
的。在这个结论中，有统计数据证明新的系统提高了每加仑油料的效能。因此，可以投入生产这 
种新系统。在这样的研究中，原假设和备择假设的建立 如下： 拒绝讯可得出研究结论是正确 
的，并可采取行动，所以研究中的假设将被作为备择假设。 

TT<Tii_mirnnT>nTn~_TrntTrtiiTrrr j t^"rTrT~ < ~r~T~^~rTn^TTrT^r^-r~n j TT l nrr — immu—mrrrmriTiniTTivnmTTinii-imni.rH 相 q •瓣 iciini_niiTi<THp r p ■❸ ■碑 iYi^io>orn_iioiyrit^ii_rMmn!Twn TT ii T i_ iiiniiiiiiifiiii 

研究中的假设一般是备择假设。如果原假设被拒绝，则研究中的假设为真。 
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检验声明的有效性 

对于如何进行某一声明的有效性检验，我们以某一软饮料的生产商的声明为例。该生产商声 
称容量为2升的产品中至少有平均为 67. 6盎司的内含物。选取2升容量的产品为样本，对其内含 
物进行检测，以证明厂商的声明是否有效。在这种类型的假设检验中，除非样本能提供数据证 
明，我们将认为厂商的声明是正确的。对于软饮料这个例子我们将采用此方法，原假设和备择假 
设建立 如下： 


Ho ： ) u ^67. 6 

H a ： 67. 6 

如果抽样结果表明讯不被拒绝，就不能对生产商的声明表示异议。然而，如果抽样结果表 
明讯被拒绝，则可推 断札： M <67.6 是真。有统计数据证明生产商的声明是错误的，软饮料的 
内含物平均含量小于 67. 6盎司。因此需对生产商采取适当措施。 

对于任何关于检验某一声明的有效性的情形中，通常将假定为真的假设设为原假设。而将拒 
绝 H 0 、 统计数据证明原假设不正确的假设确定为备择假设。当拒绝 执时， 应采取措施纠正其声 
明。 


生产商的声明一般被怀疑并将其设为原假设。如果原假设被拒绝，则该声明不正 
确。 


决策中的假设检验 

在检验研究中的假设或某一声明有效性时，如讯被拒绝将会采取措施。然而，在一些情况 
下，不论讯被拒绝与否，都需要采取相应措施。总体上，当决策者必须从这两种措施作出选择 
时，一种与原假设有关，另一种与备择假设有关，这时上述情况便发生了。例如，对一批收到的 
货物中的零件进行抽样检验，质量监督管理员决定是否收下这批货物，或者因为其质量不达标， 
将货物退还给供货商。假设这零件的规格要求是每个零件的平均长度是2英寸。如果平均长度大 
于或小于标准2英寸，则会在装配操作中出现质量问题。在这个例子中，原假设和备择假设建立 
如下： 


Ho : fi = 2 

如果抽样结果表明乩不被拒绝，质量监督管理者可毫无疑问地认为这批货物达到规定标 
准，并可接受这批货物。然而，如果抽样结果表明被拒绝，这表明这批零件不符合规定标准。因 
此，质量监督管理者有足够的理由退货。在这里我们看到了不论/ / o 被拒绝还是没被拒绝都采取 





措施的例子。 


第9章假设检验357 


对原假设和备择假设形式的总结 

令) U 0 为原假设和备择假设中的指定值。总体上，关于总体平均值 M 的假设检验的形式是下 
面三种 之一： 

Ho ： Ho ： Ho ： )Lt= yUo 

Ha: /Jb< /JJO Ha ： fJL> fJLo Hal /t 一 叫 


这里给出了假设检验丑。和瓦的三种形式，三种形式中等号总是出现在原假设中 
在特定的应用中，将你想证明的问题设为备择假设 ft ， 则在选择合适假设时有帮助。 


在许多情况下，私和札的选择并非显而易见，需要通过判断来选择合适的形式。在上述的 
形式中表达式中的等号部分（不论多、矣或 =) 总是出现在原假设中。在选择 ft ) 和札适当形式 
时，要记住将试图建立的结果记为备择假设。因此，可以通过询问使用者寻找支持从<叫，从>抑， 
的证据来帮助确定 札。 下面的习题是选择假设检验的适当形式的 练习。 



1 . Danvers-Hiltcm 风景旅馆的管理者声称，周末顾客账单的均值小于或等于600美元。该旅馆的会 
计发现最近几个月客人的账单上的费用持续增加。因此，会计想根据周末账单所组成的样本来 
验证管理者的说法。 

a . 验证管理者的说法，应采用下面哪种假设检验形式？为什么？ 

Ho： 600 Ho : ^ t ^600 Ho： /a = 600 

H a ： fi < 600 H a : fi > 600 H & : / t #600 

b . 如不能拒绝丑。，则得到适当的结论是什么？ 

c . 如可以接受执，则得到适当的结论是什么？ 

2. 一家汽车销售商的管理者正考虑实施一奖励计划来提高销售量。目前，平均销售量 
为每月14辆汽车。管理者想知道这项新型的奖励计划能否增加销售量。为了收集 

自测题 

这项计划的数据，允许被选定的销售人员在一个月内采用这项新型的奖励计划进行 
销售。 

a . 对于此项研究，建立合适的原假设和备择假设。 

b . 如不能拒绝丑。，试对此结论进行解释。 

c . 如可拒绝丑。，试对此结论进行解释。 
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3. 设计一条产品生产线，这条生产线是用于将洗衣用的洗涤剂装入纸盒，要求纸盒的重量的均值 
为 32 盎司。定期挑选一部分纸盒为样本，对其称量以便发现其是否分量不足或超重。如果样 
本数据得出纸盒重量不足或超重，则应该使该生产线停产并调整使其达到规定重量。 

a. 建立原假设和备择假设，以判断是否关闭和调整生产线。 

b . 如不能拒绝讯，试对此结论进行解释。 

c. 如拒绝讯，试对此结论进行解释。 

4. 因为时间和成本对产量的影响很大，所以在采用某种新的工艺方法之前，生产负责人必须使管 
理层相信其新的工艺方法确实能降低成本。目前生产中所用的工艺方法所耗的成本均值为每小 
时220美元。为了检验该新的工艺方法，测量其一段生产期作为样本的成本。 

a. 对于此新的工艺方法，建立合适的原假设和备择假设。 

b. 如不能拒绝丑。，试对此结论进行解释。 

C . 如可以拒绝 i / o , 试对此结论进行解释。 


9.2 第一类错误和第二类错误 

原假设和备择假设是关于总体的两个对立的解释。要么原假设丑0是真，要么备择假设优是 
真，两者不能同时为真。理想的假设检验过程为当 ft) 为真时，接受丑。，当札为真时，拒绝 
汛。然而，作出的结论不可能总是正确的。因为假设检验是建立在样本信息的基础之上，我们必 
须考虑错误发生的概率。表 9. 1表示了假设检验中可能发生的两种类型的错误。 

表 9.1 的第一行表明当接受执时可能发生的情况。如果讯为真，则得到的结论是正确的。 
然而，如果凡为真，我们就犯 了第二类错误 (type II eiror) , 即 原假设 i/o 为假而我们接受它时所 
犯的错误。表 9.1 的第二行表示拒绝执时可能发生的情况。如果 i/。 为真，我们犯 了第一类错误 
(type I em>r), 即 原假设报为真而我们拒绝它时所犯的错误。如果 ft 为真，则拒绝执是正确的。 


表 9. 1假设检验中的错误和正确结论 




总体情况 



讯为真 

为真 


接受 ffo 

正确结论 

第二类错误 

结论 

拒绝 Ho 

第一类错误 

正确结论 


在 9.1 节中，我们讨论了一个假设检验例子。一个汽车生产研究小组设计了一种能提高汽车 
每加仑油料效能的新型的燃料喷射器。目前所用的燃料喷射器的功效为平均每加仑24英里，其假 
设检验建立 如下： 


Ho ： / a 矣24 
H a ： fJi>24 
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备择假设 Z / a: g >24 表明，研究者正试图找出能支持效率均值大于每加仑24英里的结论的样 
本数据。 

在这个例子中，当 i /。 为真时而拒绝了 i / a ， 表示这种新型喷射器实际上不比目前所用的喷射 
器好，但却错误认为这种新型的喷射器提高了每加仑燃料的功效 ( m >24)， 则此时发生了第一类 
错误。反之，当为假时而接受 了凡， 表示这种新型喷射器实际上比目前所用的喷射器好，但 
错误认为这种新型的喷射器没有提高每加仑燃料的功效 ( g <24)， 则此时发生了第二类错误。 

在实践中，人们将假设检验中所发生的第一类错误的概率最大允许值称为检验的显著性水平 
(level of significance ) 。一般显著性水平值为 0. 05和 0. 01。参照表 9. 1第二行，发现如果拒绝 
ft >， 要么这^结论正确，要么就发生第一类错误。因此，如果第一类错误发生的概率被限制在一 
个较小的显著性水平之内，则我们将有很高的置信度确定拒绝执是正确的。在这种情形下，从 
统计上我们可以得出为假，，而况为真的结论，从而可按照备择假设札建议的措施实施。 

在绝大多数的假设检验运用中，一般都只对第一类错误进行控制，而通常不对第二类错误加 
以控制。因此，我们在决定接受札 时， 我们不能确定该决策有多大的置信度。由于第二类错误 
发生的不稳定性，统计学家建议我们采用“不能拒绝》>”而不釆用“接受//。”这种说法。采用 
“不能拒绝执”这种说法使我们避免了为判断或行动提供建议。实际上，不能直接接受 H 。， 从而 
使统计学家避免了犯第二类错误的风险。但只要不对第二类错误控制，我们将不能得出接受 ft ) 
的结论。在这种情况下，只能得出两种可能的 结论： 不能拒绝 讯 或拒绝// 0 。 


如果样本数据与原假设讯一致，则我们得出“不能拒绝队”而不是“接受讯” 
的结论，因为接受/会发生第二类错误。 


虽然通常不对第二类错误进行控制，但是事实我们做了。事实上，在 9.7 节和 9.8 节中，我 
们将介绍第二类错误概率和控制的程序。如果能对第二类错误进行适当控制，那么可以实施基于 
“不能拒绝执”的结论所采取的措施。 



在许多应用中假设检验都是为了决策。通 
过统计数据得出拒绝讯，从为真的结论，并采 
取适当的措施。虽然“不能拒绝//。”这种说法 


并未能作出结论，但使管理者认为似乎讯是 
真的。在这种情形下，管理者需知道采取这一 
措施导致第二类错误的事实。 



5. 美国人每天平均用于阅读报纸的时间为 8.6 分钟 （[/&47 Wa y , April 10,1995)。某一研 

究者认为管理岗位上的人每天平均用于阅读报纸的时间比公众的平均值要高。该研究 
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者选取一部分管理岗位的人作为样本。根据他们每天用于阅读报纸时间的数据对下面的原假设 
和备择假设进行 检验： 


Ho ： / i ^8. 6 
H a ： / x > 8. 6 

a . 在这种情况下，第一类错误发生的概率是什么？发生这类错误将导致什么后果？ 

b . 在这种情况下，第二类错误发生的概率是什么？发生这类错误将导致什么后果？ 

6. 容量为 3 夸脱的橙汁容器上的标签标明，该橙汁中所含脂肪的均值不超过 1 克。对标签上的说 
明进行检验，回答下面 问题： 

a . 建立原假设和备择假设。 

b . 在这种情况下，第一类错误发生的概率是什么？发生这类错误将导致什么后果？ 

c . 在这种情况下，第二类错误发生的概率是什么？发生这类错误将导致什么后果？ 

7. Carpetland 销售员每周的销售额为 8 000 美元，该公司的副总裁 Steve Contois 建议采取一种刺激 
销售的补偿方案。 Steve 想通过试行该计划的一个销售期间的数据，得出该方案能增加每名销售 
人员的平均销售量的结论。 

a . 建立原假设和备择假设。 

b . 在这种情况下，第一类错误发生的概率是什么？发生这类错误将导致什么后果？ 

c . 在这种情况下，第二类错误发生的概率是什么？发生这类错误将导致什么后果？ 

8. 如果假设检验支持某种生产方法能够降低每小时生产成本均值的结论，则这种新型生产方法可 
正式投入使用。 

a . 目前该生产方法的平均成本为每小时 220 美元，试建立原假设和备择假设。 

b . 在这种情况下，第一类错误发生的概率是什么？发生这类错误将导致什么后果？ 

c . 在这种情况下，第二类错误发生的概率是什么？发生这类错误将导致什么后果？ 


9.3 总体均值的单侧 检验： 大样本 

美国联邦贸易委员会 （ FTC ) 定期设计调查对生产商的产品说明进行检验。例如，大瓶 Hill ¬ 
top 咖啡的标签上标明其容量至少为3磅。假定我们利用假设检验对此项说明进行检验。 

假设检验的第一步是建立适当的原假设和备择假设。在对 Hilltop 咖啡进行检验时，美国联邦 
贸易委员会主要是寻找消费者所消费的产品少于厂商所声明的产品。因此，如果 Hilltop 的罐装咖 
啡的总体平均重量为3镑或多于3磅，则其产品说明是正确的。但是，如果 Hilltop 的罐装咖啡的 
总体平均重量小于3磅，则其产品说明是不正确的。因此，联邦贸易委员会可对其产品不足量进 
行起诉，并对公司采取相应的法律措施。 

首先我们假定 Hilltop 咖啡的标签的说明是正确的。令 / x 代表每罐重量的总体均值，则原假设 
和备择假设 如下： 



第 9 章假设检验 361 


Ho ： fi^3 
H a ： fi<3 

如果样本数据表明//。没被拒绝，就不能对 Hilltop 采取任何措施。但是，如果样本数据表明 仏被 
拒绝，则美国联邦贸易委员会根据统计数据得出备择假设札： m <3 是正确的。在这种情况下， 
联邦贸易委员会可对其产品重量不足起诉。 

假定随机抽取36听咖啡罐头作为样本，对样本的平均每听罐头的重量进行假设检验。如果样 
本平均值小于3磅，则对 Hilltop 咖啡的标签的说明产生怀疑。但是，当样本均值比3磅小多少的 
时候，我们才愿意拒绝乐并承担犯第二类错误的风险控告该公司违背其说明？ 

为了回答这个问题，我们假定原假设 m = 3 为真。另外，从以前对 Hilltop 咖啡罐头检验的数 
据得出总体标准方差 o * = 0. 18磅。在第7章和第8章的抽样分布中了解到 Hilltop 咖啡罐头检验中 
的元的抽样分布是服从正态概率分布。图 9.1 给出了当原假设 m = 3 为真时，7的抽样分布。现在 
我们利用图 9.1 中的样本平均值和抽样分布对假设讯：和此： p <3 检验。 



图 9. 1 在 Hilltop 咖啡研究中，当原假设 (g = 3 ) 为真时5的抽样分布 


在假设检验的方法中，我们事先指定犯第一类错误的最大允许概率，称此概率为检验 的显著 
性水平 (level of significance ) 。令 a 为显著性水平， a 指原假设为真时，第一类错误发生的概率。 
在 Hilltop 咖啡检验中，联邦贸易委员会的负责人作了如下 说明： “如果 Hilltop 产品重量达到规定 
要求 （M = 3)， 则在99%情况下不会对这家公司采取任何措施。而我只有1%的可能去犯对该公司的 
质量不足进行投诉的错误”。在这里，从联邦贸易委员会的负责人的说明了解到第一类错误的概 
率为 a = 0, 01。图 9.2 表示了 5的抽样分布和显著性水平 a =0.01 时的拒绝区域，这表明当 Hoifi : 
3为真时，$只有1%的可能性落在 拒绝域 (rejection region ) ，即有1%的可能性犯第一类错误。 

样本观察平均值5可通过计算检验 统计置 (test statistic ) 来得出是否落在拒绝域内。在大样本情 
形下，假定总体平均误差 cr 已知，检验统计量 如下： 




(9.1) 
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在这个表达式中，叫为讯中的总体平均值， n 为样本大小。统计量 z 的抽样分布是一个标 
准正态概率分布，因此可对 z 值估计判断样本平均值是否落在拒绝域内。在 Hilltop 咖啡例子中， 
A*o = 3, o - = 0. 18, n = 36。 因此，一旦样本平均值5确定，检验统计量为 

_ jc ~ jUo _ x~3 
Z= a/f^ = 0 . 18/^6 



图9, 2 在 Hilltop 咖啡研究中，显著性水平 a = 0.01 时的拒绝区域 


现在我们可以通过样本结果得岀假设检验的结论。我们介绍两种 方法： 一种是基于检验统计 
量的观察值，另一种是基于 p - 值准则。首先我们介绍检验统计量方法。 

检验统计量应用 

图 9. 3显示了5的抽样分布和检验统计量 z 的抽样分布。每一个$值对应一个 z 值。在前面， 
我们指定了 Hilltop 咖啡研究中显著性水平 a = 0.01。 图 9.3 给出了丑。的拒绝域。 

因为检验统计量 z 服从标准正态概率分布，我们可以通过标准正态分布表査找与分布在左侧 
的 a = 0.01 区域相对应的 z 值。查表可得-2.33,这在图 9.3 中表明。拒绝域的边界的检验 
统计值为检验 临界值 (critical value )。 使用临界值 -2. 33,从而我们建立 Hilltop 假设检验的拒 
绝规则 

如果 z <~2. 33,则拒绝丑。 

拒绝规则表明如样本平均值5计算出的概率统计值小于 -2. 33,则我们拒绝原假设讯： p 多3,得 
出备择假设 ft : M <3 是正确的。如果样本平均值5计算出的检验统计量 z 值不在拒绝域中， z <- 
2.33,我们不能拒绝//。： 图 9.3 表示拒绝域在抽样分布的一侧，故这种情况叫单侧 

( one-tailed ) 检验。 
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^拒绝 Ho 


图 9. 3 对于 Hilltop 咖啡，当 a = 0. 01时^的抽样分布和 z 的抽样分布 

假定由36听罐头组成的样本平均值 5 = 2. 92磅。是不是5 = 2. 92落人拒绝域？为了回答这个 
问题，我们计算检验统计量 z 


x ^ jjjp __ 2. 92 ~ 3 一 

Z = a -// 7 T = 0 . 1&</36 = 


-2. 67 


比较 z = -2.67 与检验的临界值 z = -2.33 ， z = _2. 67<- 2, 33。因而， z = -2.67 落入拒绝域 
(如图 9.4 所示，见下页）。因此，我们拒 绝队： At 彡3。所以，联邦贸易委员会得出从：弘<3正 
确，联邦贸易委员会可对 Hilltop 咖啡重量不足起诉。 


值的应用 

p - 值 ( p - value ) 检验是另一种进行假设检验的方法。假定原假设为真， p - 值是样本结果与所 
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拒绝 //o 


图 9. 4 当5 = 2. 92 时，其相应检 验统计 置的值落在拒绝域中 

观察到的结果至少有一点不同的概率。在 Hilltop 咖啡例子中，拒绝域在左侧，所以值是观测 
到的样本结果小于等于实测结果的概率。通常称 p - 值为观察 显著性 水平。 

在 Hilltop 咖啡例子中，样本平均值 5 = 2. 92镑对应着检验统计值-2.67。因为拒绝域在 
分布的左侧，故；)-值是 z 值小于 -2.67 的概率。査找标准正态分布表，发现 -2. 67时，概 
率为0.4962，所以如图 9.5 所示 p -值为 0.500 0-0.4962=0.003 8。 p -值表明当讯为真 
时，所得到的样本值 $ = 2. 92的概率很小。 


单侧检验的 p - 值总是这样一块面 积：由 检验统计值起向分布的拒绝域一侧扩展。 



拒绝 //o| 

图 9. 5 在 Hilltop 咖啡研究中，当 5 = 2. 92 和 z = - 2. 67 时的 p - 值 



值拒绝规则 如下: 
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如果广值<(^，则拒绝讯 


不论假设检验的形式，总是如果/)-值<«,则拒绝丑 0。 

如果 p - 值 < a , P - 值在拒绝域内，则样本结果必定在拒绝区域内。在 Hilltop 咖啡例子中， 
p - 值 =0.003 8 <a =0,01，因此拒绝原假设丑 0: 从彡3。联邦贸易委员会可得出乩：从<3为真的 
结论。因此，联邦贸易委员会可对 Hilltop 咖啡重量不足起诉。 

检验统计量方法和 />- 值方法对同一假设检验应得出相同结果。选择这种方法而不选择那种 
方法完全是个人爱好。可选择其中一种，或两种都可以。计算机输出一般使用 p - 值方法。事实 
上，因为 p - 值准则易记易用， p - 值<«经常被用作拒绝规则。 


有时对某一特定的样本结果，研究者仅仅是设定 p - 值。研究结论的使用者可以选 
择任何能够接受的显著性水平 a 。 计算 p - 值和被选择的 a 值，可使使用者决定能否拒 
绝原假设。 


在结束 Hilltop 咖啡例子之前，我们假设36听罐头组成的样本平均值 5 = 2.97 磅。在这种情 
形中，检验统计值为 


X- uo 2.91-3 . nn 

- 1 . 00 

由于 -1.00 远大于临界值-2.33， -1.00 不落在拒绝域内。因此，联邦贸易委员会不能 
拒绝执。联邦贸易委员会不能根据统计数据来证明对 Hilltop 咖啡重量不足，故不能对其起诉。 

查找标准正态分布表，当检验统计量 z = -1.00 时，可得 z = -1.00 与平均值之间的面积为 
0.3413。因此，拒绝侧面积即 p -值 =0.500 0 - 0.341 3=0. 1587。因为 p _值 =0. 158 7远大于 
« = 0.01,则联邦贸易委员会不能拒绝讯。因此，没有统计数据来支持对 Hilltop 咖啡重量不足釆 
取措施。 


总体均值的单侧检验步骤总结 

总体均值单侧检验的步骤如下。根据中心极限定理，在大样本情形下 （； i 多 30), 我们可以得 
出的抽样分布近似服从正态概率分布。对于大样本，我们可以利用历史数据值作为总体标准误差 
o ■的值，或以样本标准差 s 代替在下面的单侧检验中，总体平均值//0已被指定。 
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大祥本 （〃 >30) 犢形下 S 体均值单侧假设裣验的形式 



Ho: 




i / a ： 

fji< /JLo 


裣验统 计通： 

(T 已知 

X~ fXo 

(9.1) 

检验统 计屋： 

o ■未知 

X-JJLo 

s AI~n 

(9.2) 

拒绝现则 

使用检验统计 量：如 z 

<-Za f 则拒绝 //0 



使用 p- 值：如 P- 值 <a, 则拒绝 i/o 



当检验统计量在抽样分布的右侧时，得出单侧假设检验拒绝原假设的第二种形式。单侧检验 
及拒绝规则总结如下（见图 9. 6)。仍然考虑大样本情形。 


在大多数应用中，因为总体标准差 o •未知，在计算检验统计量时以样本标准差 s 代替 c 


大祥本 （〃 >30) 犢形下 S 体均值单侧假设裣验的形式 



Ho ： 

H a ： /Jb> fJLo 


检验统 计屋： 

cr 已知 



X-JJLo 

Z= cr/[^ 

(9.1) 

检验统 计屋： 

(T 未知 



sAj n 

(9.2) 

拒绝现则 

使用检验统计 量：如 则拒绝 i/ 0 
使用 p - 值：如 p - / ( S < a , 则拒绝 /fo 
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假设检验步骤 

在对 Hilltop 咖啡例子进行的假设检验步骤，同样适用于任何假设检验。其步骤总结如下，注 
意，无论检验统计量或 p - 值都可以得出假设检验结论。 

假设裣验步骤 

1. 建立原假设和备择假设。 

2. 指定显著水平 a 。 

3. 选择假设检验的检验统计量。 

使用检验统计量 

4. 利用显著性水平根据检验统计量的值建立拒绝// 0 。 

5. 收集样本数据和计算检验统计值。 

6. 使用检验统计量和拒绝规则，确定是否来拒绝执。 

使用 p _ 值 

4 . 收集样本数据来计算检验统计量。 

5. 使用检验统计量来计算 P - 值。 

6. 如果则拒绝讯。 



p - 值是当原假设为真时，样本结果出现 相对应的 p - 值，使用者可以将 p _ 值与 a 相 
的概率。值越小，则样本结果出现的概率 比较，而不必查找统计表便可得出假设检验的 
越小。大多数统计软件包提供了与假设检验 结论。 




368 商务与经济统计 



学生 注意： 一些假设检验的练习是使用检验统计量，另外一些练习是使用 p - 值。这两种方 
法都得出了相同的假设检验结论。下面提供了利用这两种方法的练习，可以使用这两种方法。在 
实际应用中，你可按自己的爱好选择其中一种方法。 

方法 

9. 考虑下面假设 检验： 

Ho: / x 多 10 
H a ： / x <10 

一个样本大小为50，样本平均值为9.46，样本标准差为2。 

a . a = 0. 05, z 的临界值是多少？ 

b . 计算检验统计量 z 值，得出你的结论。 

10. 考虑下面假设 检验： 

自测题 Ho ： /x^15 

H “ fi >\5 

一个样本大小为 40, 样本平均值为16.5,样本标准差为7。 

a . a =0.02， z 的临界值是多少？拒绝规则是什么？ 

b . 计算检验统计量 z 的值。 

c . p - 值为多少？ 

d . 得出你的结论。 

11. 考虑下面假设 检验： 

Ho ： fi^25 
H a ： / x <25 

样本大小为100,总体标准差为12,取《 = 0. 05。给出检验统计量 z 的值，并得出你的结论。 
a . 元= 22. 0 b . 元= 24. 0 c . 元= 23. 5 d . ^ = 22. 8 

12. 考虑下面假设 检验： 


Ho ： At 矣 5 
H a: fi>5 
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假定检验统计量如下，计算相应的 p -值，与 a =0. 05比较，得出结论。 

a . z = L 82 b . z =0. 45 c . z = 1. 50 d . z = 3. 30 e . 2 =—1,00 

应用 

13. 在 3 月 31 号之前，美国个人缴纳的联邦所得税平均数为1 056美元。以所缴纳的税款 
在其所得税纳税期的最后5天 (4 月10日一4月15日）才汇出的纳税人所组成的所谓 

自测题 

“最后一分钟”总体。 

a . 一名研究人员认为，在最后5天才缴纳税款的原因之一是纳税人所缴纳的税款比在 
此之前那些人所缴的税款要少。建立适当的假设，以便得出当拒绝执时支持该研 
究人员说法的结论。 

b . 当 a =0. 05,得出检验统计量的临界值和拒绝法则？ 

c . 由400名在4月10日一4月15日之间缴纳个人所得税组成的样本，样本平均值为 
910美元，样本标准差为1600美元。计算检验统计量。 

d . 得出你的结论。 

e . 检验 p - 值为多少？ 

14. Nielsen —份调查报告估计，每天每户家庭看电视的平均时间是 7. 25小时 （ For/b 
News ，November 2, 1997)。 假定 Nielsen 调查涉及了 200 户家庭，其样本标准差为每元 2. 5小 
时。根据报道10年前每户家庭看电视时间的总体均值为 6.70 小时。令 m 为1997年每户家庭 
看电视的时间的总体均值，检验假设//。： m €6.70 和 // a: / i >6.70。 取 a =0.01。 

a . 得出检验统计量的临界值和拒绝规则。 

b . 计算检验统计量。 

c . 得出你的结论。 

15. 据美国国家汽车交易联合会报告，二手汽车的平均价格是10 192美元。根据堪萨斯市二手车 
交易市场的管理人员回顾，由最近市场销售的100辆二手车价格的样本均值为9 300美元， 
样本标准误差为4500美元。令 m 代表堪萨城市场的二手车的总体平均价格，试在显著性水 
平 a =0.05 下检验好 0: / x 彡 10 192 和札： / x <10 192 c 

a . 得出检验统计量和拒绝规则。 

b . 计算检验统计量。 

c . 得出你的结论。 

16. Media Metrix 有限公司跟踪调查七个国家的上网者，这七国包括澳大利亚、英国、加拿大、法 

国、德国、日本和美国。根据最近调查数据，关于上网时间美国家庭上网者排在第一位，平 
均每月13个小时 （ 77 ie August 4, 2000)。假定由145名加拿大上网者组成的 

样本调查表明，样本平均值为每月 10.8 小时，样本标准误差为 9.2 小时。 

a . 建立原假设和备择假设，以便能决定是否样本数据支持加拿大上网者的总体平均时间小于 
美国的平均时间13小时的结论。 
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b . 当 a =0.01, 得出检验统计量的临界值，并写出拒绝规则。 

c . 得出检验统计量的值。 

d . 得出你的结论。 

17. Fowle 市场调查公司认为，电话调查可在平均15分钟以内结束，并据此向客户收费。如果调 
查表明所需时间超过该值，则需要加额外费用。假设由35个电话调查所组成的一个样本表 
明，样本平均时间为17分钟，祥本标准差为4分钟。问费用比率是否合理？ 

a . 建立该应用的原假设和备择假设。 

b . 计算统计检验量的值。 

c . 值大小是多少？ 

d . 当 a =0.01, 得出你的结论。 

18. 第一套广播网研究表明，十几岁的年轻人每去一次快餐店如麦当劳 、 Berger King 和 Wendy’s 
的平均消费为5.72美元（^/&47^^，0以01)汉5，1998)。在接下的研究中，由芝加哥的102名经 
常去快餐店的十几岁的年轻人组成一个样本，这一样本的平均值为 5.98 美元，样本平均误差 
为 1.24 美元。 

a . 建立原假设和备择假设，以便于决定样本数据是否支持芝加哥十几岁的年轻人每去一次快 
餐店的消费总体均值为 5. 72美元的结论。 

b . 检验统计量的大小。 

c . p - 值为多少？ 

d . 当 o ：=0.05 时，得出你的结论。 


19. 美国全国新的单身家庭的平均消费量为 181900美元（7^_>^忒打爪^4^«^^2(»(})。 由南 
部 40 户单身家庭的消费量组成一个样本，样本平均值为 166400 美元，样本平均标准误差 
为 33 500 美元。 

a . 建立原假设和备择假设，以便能决定是否样本数据支持南部单身家庭的总体平均销售量少 
于全国平均值181 900美元的结论。 

b . 检验统计量的大小。 

c . 值的大小。 

d . 当 o : = 0. 01时，得出你的结论。 

20. 根据美国大学和就业国家联合会数据表明，2000年毕业的会计专业的毕业生平均年薪为37 
000美元（77脱 ， May 8, 2000)。在2001年6月对此继续研究，由48名会计专业的大学生组成 
一个样本，这一样本的平均值为38 100美元，样本的标准误差为5200美元。 

a . 建立原假设和备择假设，以便于决定样本数据是否支持2001年6月会计专业毕业的大学平 
均年薪比2000年毕业的平均年薪37 000美元要高。 

b . 检验统计量的大小。 

c . - 值的大小。 

d . 当 o :=0.05 时，得出你的结论。 
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9.4 总体均值的双侧 检验： 大样本 

双侧假设检验 ( two-tailed tests ) 与单侧检验不同，双侧检验的拒绝域既在抽样样本的左侧也在 
右侧。下面通过一个例子来介绍如何进行双侧检验和为什么采用双侧检验。 

美国高尔夫球联合会 （ USGA ) 规定，如果高尔夫球生产商想让他们的产品被 USGA 接受用于 
赛事，就必须达到规定要求。其中高尔夫球的生产标准之 一为： “在 USGA 总部所特许的室外器械 
上，接受检验的高尔夫球射程的平均距离应不超过280码……”假定 Sixperflight 公司最近采用一 
种高技术的生产方法所生产的高尔夫球射程的平均距离为280码。 

然而， Superflight 公司意识到，如果新的生产过程失控的话，则生产出来的高尔夫球的平均距 
离或者小于280码，或者大于280码。在第一种情况下，由于产品质量降低，可能会导致销售额 
下降； 而在第二种情况下，由于超过了 280码这一距离规则， USGA 可能会拒绝使用这些高尔夫 
球。 

Superflight 公司的管理人员设计出一个质量控制程序来监控生产过程，并且定期地使用假设检 
验来决定这一生产过程是否操作不正确。首先，我们假定这一生产过程运行正常，所生产出的高 
尔夫球平均射程满足规定的280码。原假设和备择假设 如下： 

fhi fx : 280 
H a ： /^ t ^280 

如果样本数据表明执没被拒绝，则不需要调整生产过程。但是，如样本数据表明执被拒绝，我 
们将断定所生产出的高尔夫球平均射程没有达到规定要求280码。在这种情况下应采取措施调整 
生产过程使其达到满足状态。 

质量控制小组选定假设检验的显著性水平 a =0.05, 每次进行质量控制检验时选定36个高尔 
夫球作为样本。检验统计量为 


o'/fn 


假设检验量跟 9. 3 节一样。 

* * 

I f • - | n - r~~r r~~T t i ttt i i i i ininrr^mi^r ~ r tt rr~iiiwwn^wnTnrtTTiiiBp<w»>i-io*i*f aTTir^nq«aMiiiii u i h _ n m i_i 螬 伸抑 

通常，我们假定原假设是正确的。当检验统计量 Z 表明样本平均射程明显少于或明显大于 
280码时，我们将拒绝乩 ： /x = 280 o 因此，当 z 值在抽样分布的左侧或右侧时，好。将被拒绝。 
所以，称此检验假设为双侧 ( two - tailed ) 检验。 

图 9.7 表明了 a =0.05 时，抽样分布 z 的双侧拒绝域。在双侧假设检验中，通常将分布的双 
侧区域或概率分别为 a /2 时所对应的区域确定为拒绝域。査找标准正态分布表可以得出一侧面积 
为 0.025 所对应的 z 值。见图9.7， - zao 25 = - 1.96 的左侧面积为0.025， zo . q 25 = + 1. 96的右侧 
面积为0.025。因而， -1.96 和 z = l , 96是检验的临界值，拒绝规则 如下： 
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如果 z < -1.96 或 z >1.96, 则拒绝私 

表 9.2 提供了 36个髙尔夫球所组成的简单随机样本数据。从这些数据得出样本平均值无= 
278.5, 样本标准差 s = 12码。原假设中 /io = 280,样本标准差5 = 12,估计总体标准误差 o ■，检 
验统计量值为 


%-_ 278, 5 ^280 

s/yj 71 12/^36 


-0.75 


根据拒绝规则，//。不能被拒绝。样本数据表明没有理由怀疑该生产过程生产出的髙尔夫球的 
平均射程不是280码。 



图 9. 7 Superflight 公司双侧假设检验的拒绝域 


表 9. 2 36个髙尔夫球射程所组成的简单随机样本数据 



CD 光盘数据 


Distance 


髙尔夫球 

码 

髙尔夫球 

码 

髙尔夫球 

码 

1 

269 

13 

296 

25 

272 

2 

300 

14 

265 

26 

285 

3 

268 

15 

271 

27 

293 

4 

278 

16 

279 

28 

281 

5 

282 

17 

284 

29 

269 

6 

263 

18 

260 

30 

299 

7 

301 

19 

275 

31 

263 

8 

295 

20 

282 

32 

264 

9 

288 

21 

260 

33 

273 

10 

278 

22 

266 

34 

291 

11 

276 

23 

270 

35 

274 

12 

286 

24 

293 

36 

277 
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双侧检验的 p - 值 

我们计算一下 Superflight 高尔夫球例子中的 p - 值。样本平均值5 = 278. 5 相对应的 z = -0.75。 
査找标准正态分布表发现平均值与 z = -0.75 之间的面积为 0.273 4。 因此，左侧的面积为 
0.5000-0. 273 4=0. 226 6 0 图 9.7， 拒绝域的左侧比例面积或概率为 a /2 =0. 05/2 =0. 025。 
因而， 0. 226 6 > 0. 025 ， 检验统计量不在拒绝域内，原假设不能被拒绝。 

在检验中，存在一个问 题是： 我们如何确定 p - 值？首先，你可能认为 p - 值为 0.226 6。 
如果这是你的答案，那么你必须记住两个不同的 规则： 一个是单侧检验的规则，如果 p - 值 
< a , 则拒绝另一个是双侧检验的规则，如果 />- 值<«/2,则拒绝讯。另外，我们假定双 
侧检验的 p - 值为分布一侧的双倍。这样在 Superflight 例子中， p - 值定义为 2 (0.226 6) = 
0.453 2。 在双侧检验中，以这种方式定义的最大优点是 p - 值可以直接与显著性水平 a 相比 
较。因为 0. 453 2 X ). 05 ， 所以原假设不能被拒绝。双侧检验中 p - 值是分布一侧的面积的两 
倍。前面所定义的拒绝 规则： 如果/>-值<«，则拒绝 ft >， 适用于所有的假设检验。 


在假设检验中， p - 值是单侧的两倍。将面积的双倍作为值可以直接与 a 比 
较。因此，无论是双侧检验还是单侧检验都使用相同的拒绝规则。 


可以利用 Minitab 统计软件来求得总体均值的假设检验的信息。图 9. 8给出了 Superflight 进 
行假设检验的计算机的输出结果。计算结果如下 ：样本 平均值5 = 278. 5,统计检验量 Z = 
-0.75, p - 值=0.453。获得 Minitab 输出的结果的程序将在附录 9. 1给出。 Minitab 的输出结 
果给出了总体平均值的95%置信区间。 


Test of mu = 280.00 vs mu not = 280.00 

Variable N Mean StDev SE Mean Z P 

Yards 36 278.50 12.00 2.00 -0.75 0.453 


图 9. 8 Superflight 高尔夫球的假设检验中 Minitab 的输出结果 

总体均值的双侧检验步骤总结 

令) Uo 代表假设的平均值，则总体均值双侧假设检验的一般形式 如下： 

大祥本 （71^30) 猜形总体均值的双侧裣验的形式 

Ho : /Ji = /Jbo 
H & ： 
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裣验统计置^已知 



裣验统计麗以 S 代替^ 


拒绝现则 




使用检验统 计量： 如果或 Z > Zan , 则拒绝 ft ) 
使用 P - 值： 如果则拒绝 //o 


(9.1) 


(9.2) 


区间估计与假设检验的关系 

在第8章中，我们介绍了如何对总体平均值进行置信区间估计。在大样本情形下，当置信系 
数为1 - a ， 总体平均值的置信区间估计为 


当 （7 已知时 


x± Za/2 


y[~n 


(9.3) 


当 o ■未知时，以 s 代替^ 


无士 Za/2' 


J _ 


(9.4) 


进行假设检验时，我们首先对总体参数迸行假设。就总体均值，双侧假设检验的形式 如下: 


Ho ： jjl = fJio 
H a ： fJbi flo 


式中，从)为假设检验的总体平 均值。 利用双侧检验的拒绝规则，可以看到当样本平均值5落在叫 
附近-& /2 和的标准差内，不能拒绝/从而，在双侧检验中，给定显著性水平《，样本平 
均值30的不能被拒绝域 如下： 

当 a ■已知时 

当 CT 未知时，以 S 代替 CT 

观察公式 (9. 3) 和 (9. 5)，可以发现统计推断的估计和假设检验的关系。特别注意的是，这两 

个程序都需要计算和一 ^ r 。 假设检验中，对于给定的显著性水平《，对应的区间估计的置信 

V n 

度系数为 ( l - a ) o 例如，假设检验的显著性水平 a = 0. 05,则区间的置信度系数为95%。而 
且，在公式 (9. 3) 和 (9.5) 中，& /2 (—^)是被加减的值，如果$落在公式 （9.5) 所定义的不能 


A*0± Za/2" 


VT 


/io 土 Zo/i" 




(9.5) 


(9.6) 
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被拒绝域中，那假设检验值就落在公式 (9. 3) 所定义的置信区间中。相反，如果假设值//0落在公 
式 (9.3) 所定义的置信区间中，样本平均值5就落在公式 (9. 5) 所定义的不能被拒绝假设//。： = 

/ io 的区域中。从这些观察中我们可以得出利用置信区间进行假设检验的程序。 

使用置信区间方法进行假设检验的形式 

Ho: /Ji= fJLo 

H a : 

1. 从总体中随机抽取一个简单样本，利用样本均值求总体均值 At 的置信区间。如果 a 已 
知，计算估计区间 


如果 s 代替计算估计区间 


2. 如果置信区间包含假设值则不能拒绝//。。否则，拒绝// 0 


X± Za/2' 


a 




X± Za/2~ 


s 


yf~n 


对于双侧假设检验，如果置信区间没包括 / io , 则原假设被拒绝。 


我们仍回到 Superflight 高尔夫球的研究中，其双侧检验 如下: 


Ho : fi : 280 
H a ： /x#280 


当显著性水平 a =0. 05 时，进行假设检验，我们抽取36个高尔夫球作为样本，样本平均射程为 
元 = 278. 5码，样本标准误差 s = 12码。其中加。25 = 1.96,总体均值的95%的置信区间为 


X± Zo. 025 ' 


yf~n 


278. 5 ±1.96 


12 

V 36 


或 


278. 5 ± 3. 92 

274. 58到 282. 42 


这一结果使得质量控制管理人员可以以95%的置信水平来确定高尔夫球总体的平均射程在 274.58 
到 282. 42之间。因为总体均值的假设值叫=280落在该区间内，所以假设检验的结论为不能拒绝 
原假设 /x = 280 o 

上面所讨论的例子适合于总体均值的双侧检验。然而，对于其他总体参数，置信区间与假设 
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检验之间存在相同的关系。另外，对于单侧检验的其他总体参数，也同样适合。只不过将进行的 
区间估计设为相应的单侧置信区间。 



1. P - 值仅仅依赖于样本结果。但是，要了解 
所调查的假设检验是单侧还是双侧。给定样 
本中的无，双侧检验的 p - 值总是5抽样分布 
的一侧面积的双倍。 

2. 假设检验的区间估计方法强调样本大小的作 


用。从公式 （9.3) 中可以发现 n 值越大，则置 
信区间越小。对于给定的显著性水平 a ， 原假 
设为假时，样本容量越大则置信区间不易包含 
冲。也就是说，当为假时，样本容量越 
大，拒绝执的概率越大。 



方法 

21. 考虑下面的假设 检验: 


Ho ： /a = 10 
H a ： /xtMO 

一个样本由 36 项组成，样本平均值为11，样本标准差为2.5。 

a . 当 a = 0.05 时，得出拒绝规则。 

b . 计算统计检验量 z ， 得出你的结论。 

22. 考虑下面的假设 检验： 

Ho ： fJi=\5 

自测题 

H a ： 

一个样本由 50 项组成，样本平均值为 14.2, 样本标准差为5。 

a . 当 a =0.02 时，得出拒绝规则。 

b . 计算统计检验量& 

c . p - 值的大小是多少？ 

d . 得出你的结论。 

23. 考虑下面的假设 检验： 


Ho ： /jl = 25 
H a ： fjb^25 
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一个样本由80项组成，样本标准差为10。当 a =0.05, 对于如下的样本结果，计算统计检 
验量 z ， 并描述你的结论。 

a . 无= 22. 0 b . 无= 27. 0 c . 无= 23. 5 d •芡= 28. 0 

24. 考虑下面的假设 检验： 

Ho ： /x = 5 
H a ： fjL^5 

假定假设检验统计量如下。计算相应的 p - 值，当 q ： = 0.05 时，描述你的结论。 
a . z = L 80 b . z - - 0. 45 c . z = 2. 05 d . z = - 3. 50 e . z = - 1. 00 


应用 


25. 根据报告工人一周平均工作时间为 39. 2 小时 （ Investor’s Business Daily , September 11, 
覼 〒 I 2000)。 当 a = 0.05, 对下述假设好 0: /x = 39.2 和 ff a : 弘/39.2进行检验。 

a . 检验统计量的临界值和关于//。的拒绝规则。 

b . 假定样本由112名工人组成，样本的平均值为 38.5 小时，样本标准差为 4.8 小 
时。得出你的检验统计量值。 

c . 原假设是否被拒绝？得出你的结论。 

d . 值的大小是多少？ 

26. CNN 和 ActMedia 电视频道可用于播放新闻、广告和特别报道，以百货商店等待结账时排队的 
个人为播出对象。假定百货商店购物者排队等待结账时间的总体均值为8分钟，所以电视节 
目每8分钟循环放映一次 （ Astounding Averages , 1995 )。选定在某商店购物120名组成一个样 
本，其样本平均等待时间为 7.5 分钟，样本标准差为 3.2 分钟。当 a =0.05 时，对假设// 0: 
/x = 8 和仏： / x /8 检验。 

a . 统计检验量的临界值的大小和拒绝规则分别是什么？ 

b . 检验统计量的大小是多少？ 

c . 得出你的结论。 

27. —条生产线生产的产品的平均充满重量为16盎司。超重或缺少会发生严重问题，导致生产线 
停产。从过去的数据中发现，假定^为 0.8 盎司。质量监管人员每2个小时抽取30项样本进 
行检验，并决定是否需要停产作调整。 

a . 当显著性水平 a =0.05 时，假设检验程序中的拒绝域规则是什么？ 

b . 如果样本平均值元 = 16. 32盎司，那么你建议采取什么步骤？ 

c . 如果5 = 15. 82盎司，那么你建议采取什么步骤？ 

d . 求 ( b ) 和 （ c ) 中的 p - 值。 
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28. Gallup 调查表明作为联邦税收返回的平均慈善捐赠为1075美元 （ ， April 10， 
2000) 。假定由2001年4月税收返回组成的样本进行假设检验，以便于决定是否有任何关于 
平均慈善捐赠额的变动。 

a . 建立原假设和备择假设。 

b . 假定由200项税收返回组成的一个样本，样本的平均值为1 160美元，样本标准差为840 
美元。统计检验量为多少？ 

c . p - 值的大小为多少？ 

d . 当 a = 0.05 时，得出你的结论。 

29. 历史数据表明，某一城市的晚上的长途电话的平均时间为 15.2 分钟。有由35个电话组成的 
一个随机样本，样本中每个电话平均时间为 14.3 分钟，样本标准差为5分钟。利用样本信息 
来检验是否长途电话的平均时间发生改变。 

a . 计算检验统计量。 

b . p -值的大小是多少？ 

c . 当 a =0.05 时，得出你的 结论。 

30. Florida 的劳动力和就业安全保障机构报道平均年薪为26 133 美元 （The Naples Daily News ， 
February 13, 1999)。 对全国的平均薪水检验看是否与一个州的平均薪水一样。 

a . 建立原假设和备择假设，以便于决定某一国家的样本数据支持这个国家的平均年薪与一个 
州的平均年薪26 133美元一致。 

b . 由 Collier 乡村的550名居民组成一个样本，样本的平均年薪为25457美元，样本标准差为 
7 600美元。计算统计检验量。 

c . p - 值的大小为多少？ 

d . 当 a = 0.05 时，得出你的结论。 

31. 历史数据表明，西部大学生入学文化考试成绩是900,标准差为180。每年对这些数据进行检 
验，看该年学生入学成绩与上年是否一样。检验中原假设//。： /t = 900。 本年由200名学生组 
成的样本表明样本分数的平均值为935。当显著性水平 a =0.05。 

a . 用置信度的方法进行假设检验。 

b . 用统计检验进行假设检验。 

c . p - 值的大小是多少？ 、 

32. 某企业的每小时平均薪水为每小时 15.00 美元。从企业中选取36名工人组成样本，样本的平 
均薪水元= 14. 50美元，样本标准差 s = 0. 60美元。 

a . 单侧置信区间利用样本结果建立总体参数的上限或下限。本题中，建立企业所支付的每小 
时薪水的左侧95%置信限度。这种单侧置信区间的形式要求我们95%地确信总体均值小于 
等于该区间。对于此单侧置信区间，解释95%的置信的含义？ 

b . 利用单侧置信区间结果来检验好。：得出你的结论。 
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9.5 总体均值的 检验： 小样本 

在 9. 3节和 9. 4节中总体平均的假设检验的程序是基于中心极限定理和大样本理论。在 9. 5 
节，我们考虑小样本情形下 （ 〃 <30)的总体均值检验。在这种情形下，$的抽样分布主要依赖于总 
体的分布。事实上，小样本情形下的假设检验程序要求假定总体是一个标准正态分布。如果这个 
假设恰当，将使用本节中介绍的方法。但是，如果假设不成立，最好的替代方法是增加样本大小 
到 n ^30, 依赖在 9. 3节和 9. 4节中介绍的大样本假设检验程序。 


本节所提供的方法是基于总体是正态分布 


首先我们考虑样本容量为小样本 U < 30) 时的情形，假设总体是正态分布/并根据历史数 
据、理论或其他原因，可得知总体标准差（7。在这些条件下，对于任何大小的样本，5的抽样分 
布以平均值 M 为正态分布，标准差的=(7//1。因为5的抽样分布是正态分布，小样本假设检验程 
序等同于 9. 3节和 9. 4节所介绍的大样本假设检验程序。检验统计量 如下： 




(9.7) 


因为假设检验的计算与前面我们所计算的一样，所以我们不再需要举新的数字例子。 

接下来我们考虑当样本容量为小样本 （ n <30) 时，假定总体是正态分布，用样本标准差 s 作 
为总体标准差 o ■的估计值。在这种情形下，利用 t 分布来对总体平均值作推断。利用假设检验的 
«分布，检验统计量为 


s/^ 

检验统计量服从自由度为 n -1 的 t 分布。 


(9.8) 


在小样本假设检验程序中，以 s 代替 a , 是基于 8.2 节中用于小样本区间估计理 
论。两者都使用总体正态分布假设和 f 分布。 



我们考虑一个小样本情形中关于总体均值单侧检验的例子。国际航空运输协会通 
过对商务旅行者调査，来评定跨太平洋通道的机场等级。最大可能的级别为10。一本 
商务旅行方面的杂志决定按照他们收集的级别数据对各个机场分类。如果机场级别的 
总体均值超过7,则被认为是高质量服务的机场。假设抽取12名商务旅行者组成一个 
简单随机样本，要求每个旅行者对伦敦的 Heathrow 机场评定级别，12名旅行者的评定 
级别分别为7, 8，10, 8, 6, 9, 6, 7, 7, 8, 9和8。这些数据组成的样本均值 $ = 7. 75,样本 
标准差为 s = 1.215。 假定评定的总体级别近似服从正态概率分布，那么 Heathrow 能否被认为是高 


CD 光盘数据 
Heathrow 
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质量服务的机场？ 

当显著性水平为 0. 05时，我们通过检验决定是否 Heathrow 机场的总体平均级别大于7。原假 
设和备择假设 如下： 


Ho i /a 矣7 
H a ： fl>7 

如果 tfo 被拒绝，则 Heathrow 机场将被认为是高质量服务的机场。 

拒绝域在抽样分布的右侧。自由度为 n_l = 12 -l = ll , 由前面的£分布表可査得临界值 
io . o 5 = 1.796 c 因而，拒绝规则为 

如果 P 1.796, 则拒绝讯 

当元 = 7. 75和 s = 1.215, 利用公式 (9.8), 得出检验统计量为 

因为 2. 14远大于1.796,原假设被拒绝。在显著性水平为 0.05 下，我们假定 Heathnm 机场的总 
体平均级别远大于7。因此， Heathrow 可能认为是高质量服务机场，图 9. 9表示检验统计量落在 
拒绝域内。 



拒绝乩 


图 9. 9 Heathrow 机场假设检验中检验统计置的值 （ 《 = 2. 14) 


/> -值和£分布 

我们考虑用 P - 值对 Heathrow 机场进行假设检验。在 9.3 节和 9.4 节中， p - 值解释为检验 
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的实测显著性水平。一般所运用的规 则为： 如果 p - 值小于显著性水平 a ， 原假设将被拒绝。然 
而，在大多数统计教科书中所提供的 f 分布表不能满足检验中确定准确的 p - 值所要求的足够信 
息。但是，我们可利用 t 分布表来确定 p - 值分布范围。例如， Heathrow 机场假设检验的 f 分布 
自由度为11。査 f 分布表，我们看到第11行给出了自由度为11的 i 分布的 信息： 

右侧面积 0.10 0. 05 0.025 0.01 0. 005 

«值 1.363 1.796 2,201 2.718 3.106 

进行假设检验计算 t = 2. 14, p - 值是 t = 2. 14那一侧的面积。从上面表的信息可知， 2. 14在 
1.7%到 2.201 之间。虽然我们不能得到精确的值，但是我们知道 p - 值在 0.05 到 0.025 之 
间。当显著性 a = 0.05 时，我们得知 p - 值一定小于0.05,因而原假设被拒绝。 


p -值很难从 t 分布表中直接获得。一般而言，最好的方法是像 0.05 和 0.025 —样 
指.定其 p - 值 区间。 


我们可以利用 Minitab 统计软件来求小样本情形下总体均值检验的信息。图 9. 10表示 
Heathrow 机场进行假设检验的计算机输出结果。计算机自动得出样本平均值5 = 7. 75，统计检验量 
t =2. 14, p - 值=0.028。在附录 9. 1中详细描述了如何获得 Minitab 输出结果的程序。 


Test of mu = 7.000 vs mu > 7.000 

Variable N Mean StDev SE Mean T P 

Rating 12 7.750 1.215 0.351 2.14 0.028 


图 9. 10 Heathrow 机场评定等级的假设检验中 Minitab 的输出结果 

双侧假设检验 


作为小样本情形下关于总体均值的双侧假设检验的例子，考虑下面的生产问题。设计一个生 
产过程来填充容器，容器的填充重量的平均值16盎司。消费者不愿意消费那些产品的重量少 
于产品标签下所标明的重量，所以该生产过程填充的重量不能少于此值。同样，如果生产过程所 
填充的容器重量超过要求，那么企业将会亏损，所以企业不希望该生产过程中填充的重量髙于此 
值。质量保证人员定期抽取8只容器组成简单随机样本，进行如下的双侧假设检验。 

Ho : = 16 

• Hai 16 

如果被丑。拒绝，则生产管理者将要求停止生产，对负责调节填充重量的调节装置重新调整， 
确保容器的填充重量均值为16盎司。如果样本产生的数据为 16.02, 16.22， 15.82, 15. 92, 
16.22, 16.32, 16. 12和 15. 92盎司，假定填充重量总体分布服从正态分布，取显著性水平为 
0.05。 
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由于数据没有整理，所以我们首先计算样本平均值和样本标准差，得到以下 结果： 

3 c =— = 128 g 56 =16. 07盎司 
n 8 

以及 

5= 产 = ^ p -=0. 177盎司 

在显著性水平 a = 0.05 下的双侧检验中，-^>.0 25 和〜。 25 是检验的临界值。利用 t 分布，得出自 
由度 / i - l =8 -l = 7, - fo , 025 = - 2. 365和 to. 025 = +2. 365。因而，拒绝规则为 

如果 K -2. 365或 t>2. 365, 则拒绝 

利用元 =16. 07和 5=0. 18,可得 


^ "iuo _ 16. 07 - 16. 00 _ 1 
s//7T~ 0.177/ 斤 ' 11Z 

因为 f = 1.12 不在拒绝域中，原假设不能被拒绝，没有足够的证据来证明需要停止生产。 

利用 i 分布表中的自由度为7的那一行，我们看到所计算的 f 值为1.12,其右侧的面积大于 
0.10 。 虽然 f 分布表不能得到更精确的值，但是我们至少可以得到双侧检验的 p- 值大于 
2(0.10)=0.20。因为该值大于显著性水平0.05,根据 />- 值我们能得到相同的结论，也就是不 
能拒绝讯。对于该假设检验通过计算机得出其精确值为0.301。 



方法 


33. 考虑以下的假设 检验： 

Ho ： / 4 矣 10 
H & ： fjL> 10 

一个样本是由16项组成，样本平均值为11，样本标准差为3。 

a . 当 a =0.05 时，得出拒绝规则。 

b . 计算检验统计量£，得出你的结论。 


34. 考虑下面的假设 检验： 

Ho ： fL = 20 
H & ： 


ggcz^ 

自测题 
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一个样本的6项数据为：18, 20, 16, 19, 17, 18。 

a . 计算样本平均值。 

b . 计算样本标准差。 

c . 当 a =0.05 时，得出拒绝规则。 
d 计算统计检验量 f 。 

e . 得出你的结论。 

35. 考虑下面的假设 检验： 


Ho ： ^\5 
H a ： fjL<\5 

样本由22项组成，其样本标准差 s = 8。 当 a = 0.05 时，计算检验统计量 t 值，并得出你的 
结论。 

a . x = 13. 0 b . S = 1 1. 5 c . x = 15. 0 d . x = 19. 0 

36. 考虑下面假设 检验： 

Ho ： ^50 
H a ： / a >50 

假设一个样本由 16 项组成，当检验统计量取如下值时，计算 p - 值，并当 a = 0.05 时，得出 
你的结论。 

a . t =2. 602 b . f = 1. 341 c . f = 1. 960 d . / = 1. 055 e . t = 3. 261 


虛用 

37. 包括美国运通 、 E * Trade Group 、高盛和美林在内的金融服务公司每股的总体平均收益 

獻【二 为3美元 （Business Week ，August 14, 2000) 0 在2001年，由10项金融服务公司组成的 
样本，其样本平均每股收益 如下： 

1.92 2.16 3.63 3.16 4.02 3.14 2.20 2.34 3.05 2,38 

a . 建立原假设和备择假设，以便决定2001年总体每股平均收益与2000年每股3美元 
的收益不一样。 

b . 当 a =0.05 时，假设检验的临界值是多少？拒绝规则是什么？ 

c . 计算样本平均值。 

d . 计算样本标准差。 

e . 计算检验统计量。 ’ 

f . 得出你的结论。 

g . p - 值是多少？ 


38. 在美国，平均每户家庭的消费为90美元 （ i 4 merican Demograp / iics , August 1997)。假定从纽约 



384 商务与经济统计 


Coming 选取25户家庭所组成一个样本，样本平均每天消费为 84. 50美元，样本标准差为 
14. 50美元。当 a = 0.05 时，对假设//。：从= 90 和払： / t #90 检验。 

a . 检验统计量的临界值大小，拒绝规则是什么？ 

b . 计算检验统计量。 

c . 得出你的结论。 

d . p - 值是多少？ 

39. 平均而言，一个有丈夫和两个孩子的家庭主妇每周做家务活动的时间大櫸不超过55个小时。 

由8名家庭主妇所组成的一个样本一周做家务的时间是： 58, 52, 64, 63, 59, 62, 62和 
55。当 a =0.05 时，检验假设 ft ): 从矣55和 H a: a =0.05 时， / x >55 0 

a . 检验的临界值是多少？拒绝规则是什么？ 

b . 计算样本平均值。 

c . 计算样本标准差。 ， 

d . 计算统计检验量。 

e . 得出你的结论。 

f . 计算 p -值的大小。 

40. 从美国钻石开采委员会了解到 VS 2 清晰度、 H 色彩的一克拉的钻石的成本是4000美元 

( wunv . diasource . com , July 2000) 。一名中西部珠宝制造商与纽约城珠宝地区珠宝商联系想了 
解相似的珠宝的平均价格是否是4 000美元。珠宝商从14名纽约城中珠宝商中收集关于珠宝 
成本的数据。 

a . 建立原假设和备择假设，以便决定是否纽约城珠宝价格的平均价格不是4 000美元 Q 

b . 当 o ：==0. 05，检验的临界值，得出拒绝规则。 

c . 假定14 名珠 宝商组成的样本平均价格为4 120美元，样本标准差为275美元。计算检验统 
计量。 

d . 得出你的结论。 

e . 计算 p - 值的大小^ 

41. CailawayGolf 公司生产的新钛合金 ERC 击球器械被认为不“合法’’，因为 ERC 击球的距离超 
过了 USGA 的标准 。 Golf Digest 中将 ERC 击球器械和 USGA 特许击球器械的距离相比较， US - 

GA 特许击球的距离的总体平均击球距离为280码。通过9次击球检验， ERC 击球器械平均击 
球距离为 286.9 码 （ G ^/ lF or W，May 12,2000)。 假定样本击球距离的标准差为 10 码，问答下面 

问题。 

a . 建立原假设和备择假设，以便于决定是否新的 ERC 击球器械击球的总体平均距离远大于 
280码。 

b . 就平均而言， ERC 器械高尔夫球击出的距离是多远？ 

c . 当 a =0.05 时，检验的临界值是多少？拒绝规则是什么？ 

d . 计算检验统计量。 


*编 者注: 疑原文有误。 
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e . 得出你的结论。 

f . p -值的大小为多少？ 

42. Joan 的苗圃公司是专门为居民区-提供庭院布置方面的设计服务的。某一庭院布置计划的估计 
人力成本是基于计划所种植树木、灌溉等的数量计算出来的。为了估计成本的大小，管理者 
在2小时的人工时间内来种植中型树木。上个月10次种植时实际所用的时间组成一个样本 
(以小时为单位）。 

1.9 1.7 2.8 2.4 2.6 2.5 2.8 3.2 1.6 2.5 

当显著性水平为 0.05 时，检验平均种植时间是否超过2小时。 

a . 建立原假设和备择假设。 

b . 检验的临界值大小，拒绝规则？ 

c . 计算样本平均值。 

d . 计算样本标准差。 

e . 计算检验统计量。 

f . 得出你的结论。 

g. 计算 p - 值的大小。 

9.6 总体比例的检验 

令符号 p 代表总体比例， po 代表总体比例的某一特定的假设值，则关于总体比例的假设检验 
三种形式 如下： 


Ho: P 多 po Ho: p 在 po Ho: P = po 

H a : p <po H a ： p >po H a ： p# po 

前面两种形式为单侧检验，第三种形式为双侧检验。具体使用哪种形式要看应用情况。 

总体比例的假设检验是基于样本比例 p 和假设总体比例 po 之间的差进行的。检验使用的方法 
与对总体均值进行假设检验所使用的程序相似，惟一不同的是对总体比例检验时使用的是样本比 
例 P 和标准差巧。我们首先对总体比例的值建立原假设和备择假设。然后，利用样本比例 P 和标 
准差巧，计算检验统计量 Z 值。将所得的检验统计量与临界值相比较或将 P - 值与 ct 比较，从而 
能帮助我们决定原假设是否被拒绝。 


检验统计量或者 P - 值都能被用来得出假设检验结论。 


现在通过 Pine Creek 高尔夫球场所面临的问题来解释如何对总体比例进行假设检验。在过去 
的几个月里，在 Pine Creek 运动者中有 20% 的是女性。为了提高在 Pine Creek 打网球的女性的比 
例，决定以特殊推销的方式来吸引女性高尔夫球运动者。一周以后，随机抽取 400 名高尔夫球运 
动者组成的样本，这样本中有 300 名为男性， 100 人为女性。球场管理人员想知道样本数据是否 
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能得出 PineCrcek 高尔夫球场女性运动者所占的比例上升了。 

为了确定这种特殊推销的方法是否提髙了女性高尔夫球运动者的比例，我们建立了下面的原 
假设和备择 假设： 


Ho ： p 矣 0. 20 
H a ： p > 0. 20 

通常我们假定执： p=0.20 为真，从而进行假设检验。接下来，利用样本 比例？ 来估计 p ， 
并 考虑戶 的抽样分布。因 为戶是 p 的无偏估计，所以如果 p=0.20, 则 ？ 的抽样分布的平均值为 
0.20 。 另外，从第 7 章我们了解到 戶的标 准差为 


假定 p = 0. 20 ,样本大小 n = 400 ,々的样本标准差为 


0r ? = 


/ 0 . 20(1 - 0 . 20 ) 
V 400 


= 0.02 


在第 7 章中，我们得出如果 np 和 /i(l-p) 都大于 5, 则 f 的抽样分布近似为标准正态概率分 
布。在 Pine Creek 例子中， rap = 400(0. 20) = 80 和 n(l - p ) =400(0. 80) = 320, 因此可以用正态 
概率分布来近似。图 9. 11表示出了 f 的抽样分布情况。 

因为该抽样分布是近似正态，所以可以使用如下的检验统 计量： 


总体比例的假设检验中的裣验统计屋 




T ^P~Po 

Z ~ _ 

(9.9) 




式中 (Tp - 

^/ po(l - Po ) 

(9.10) 



图 9. 11 Pine Creek 女性高尔夫球员所占的比例的抽样分布 
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假设检验中，在//。中假定总体比例 po 。 所以，当//。为真时，在公式 (9.10) 中利用 
P 。 可以计算巧。在 计算巧 时没有使用样本比例尹。 

假定检验的显著性水平 a =0.05。 临界值 m = 1.645, 假设检验的右侧拒绝区域给出了下面 
的拒绝规则（见图 9.12): 

如果 z > L 645, 则拒绝讯 

拒绝域一经确定，我们通过收集数据，计算点估计 p 值及其相应的检验统计量 z 。 通过比较 z 
值和临界值 （ za « 5 = 1. 645) ， 我们决定是否能拒绝原假设。 



图 9. 12 Pine Creek 高尔夫球场假设检验中的拒绝域 


在推销期间由400名运动员组成的一个随机样本表明100名运动员是女性。因而 ， p = 100/400 = 
0.25, 当％ = 0.02,检验统计量值为 


'^一 Do _ 0. 25 - 0. 20 

a-p 0. 02 


= 2.5 


因为 Z = 2.5>1.645, 我们能拒绝 //。。 Pine Creek 管理人员得出在推销期间女性运动员的比例提 
高。 

査标准正态概率分布的分布表，我们可以得到计算检验中的 p - 值。例如，对于检验统计量 
z =2. 50,分布表表示介于平均值和 z =2. 50之间的面积或概率为 0.493 8。因而，检验的 p -值 
为 0.5000-0.4938 = 0. 006 2。当 p - 值小于 a =0. 051，原假设被拒绝。 

我们发现总体比例的假设检验与总体均值的假设检验相似。两者主要的区别在于当进行总体 
均值的假设检验时利用5的抽样分布构造检验统计量，而进行总体比例假设检验时利用 P 的抽样 
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分布来构造检验统计量。通过比较检验统计量和临界值或比较 p - 值和《来得出假设检验结论。 
图 9. 13总结了总体样本比例假设检验的拒绝规则。我们假定大样本情形下 [ np 多5和 n ( l - p ) 
多5]， p 的抽样分布近似于正态概率分布。 



拒绝好。 




注： 在任何情况下，如果；>-值<«，则拒绝讯。 


图 9. 13 关于总体样本比例假设检验的拒绝规则总结 
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我们没有给出小样本情形下总体比例的假 些讲得深的课本将会对这种情况下如何进行假 
设检验程序。在小样本情形下， f 的抽样分布 设检验进行讲述。但在实践中，很少对总体比 
服从二项分布，因此不能用正态概率分布。一例进行小样本检验。 



方法 

43. 考虑下面的假设 检验： 

Ho ： p 矣0,50 
H a ： p > 0. 50 

一个样本由 200 项组成，其样本比例为尹= 0.57。 

a . 当 o :=0.05 时，得出你的拒绝域。 

b . 计算检验统计量 z 。 得出你的结论。 

44. 考虑下面的假设 检验： 

自测题 Ho ： p = 0 . 20 

Ha: / >7^0. 20 

一个样本由400项组成，其样本比例为 p = 0. 175。 

a . 当 o : = 0.05 时，得出你的拒绝域。 

b . 计算检验统计量 z 。 

c . 计算 p - 值的大小。 

d . 得出你的结论。 

45. 考虑下面的假设 检验： 


Ho: 75 

H a ： p <0.75 

一个样本由 300 项组成。当 a =0.05 时，在下列情况下得出检验统计量 z 、 p - 值，并给出你 
的结论。 

a . p = 0. 68 b . p =0. 72 c . p = 0. 70 d . p =0. 77 
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应用 

46. Heldrich 工作效率发展研究中心调查发现40%的网络使用者每天收到超过10封 e-mail ( USA 
Today , May 7,2000)。在 2001 年，对 e - mail 的使用进行了相似的研究。研究的目的是看是否 
e - mail 的使用增加了。 

a . 建立原假设和备择假设，以便决定网络使用者每天收到的 e - mail 超过10封的比例是否增加？ 

b . 当 a =0.05 时，检验的临界值是多少？拒绝域是什么？ 

c . 如果由420名网络使用者组成的样本中188人每天收到的 e - mail 超过10封，样本比例是多 
少？检验统计量是多少？ 

d . 得出你的结论。 

47. 《消费者报告》表明，64%的购物者相信超市中的牌子与大众名牌在质量上是一样的。 
某一大众品牌的番茄酱的生产商为了调查这项结论对自己的产品也适用，特询问了 

自测题 

100名超市购物者，看他们是否认为超市中的牌子与大众名牌在质量上是一样的。事 
实上，有52名购物者认为超市中的牌子与大众名牌在质量上是一样的。根据此数据检 
验//。： /?彡0.64和//„: p <0.64， 取显著性水平为0.05。 

a . 临界值为多少？拒绝域是什么？ 

b . 计算检验统计量。 

c . 得出你的结论。 

d . 计算 p - 值的大小 o 

48. Berger King 于 1998 年 1 月 2 日星期五发起名为“免费薯条日”促销活动，该活动被认为是目 
前快餐业历史上最大的一次产品赠送活动。在活动期间，驻留在 Berger King 7 4 ⑻家快餐店前 
的任何人将会免费获得一份新鲜的 Berger King 烤薯条。在 Berger King 促销活动之前，需要将 
Berger King 新的烤薯条与麦当劳的烤薯条比较来进行一次大众口味检验。在参加口味检验的 
500 名消费者中，有 285 名表示喜欢吃这种口味的薯条 7 b 如 r ， December 10, 1997)。 令 p 
为喜欢 Berger King 薯条的 总 体比例 。 考虑下面的假设检验： 

Ho ： p ^ O . 50 
// a ： p > 0. 50 

a . 喜欢 Berger King 薯条总体比例的点估计是什么？ 

b . 计算检验统计量。 

c . 计算 p - 值的大小。 

d . 当 a =0.01 时，你的结论是什么？ 

e . 你是否认为该大众口味检验有助于 BergerKing 管理人员作出开展 “ 免费薯条日”活动的决 

定？试讨论。 . 

49. 对加拿大艾伯塔省的 Strathcona 县的司机进行调查，发现在乡村的道路上 48% 的司机在十字 
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路口的停车信号前不停车 （祝 mofitofiJoumaZ , July 19, 2000)。假定在接下的调查中发现800名 
司机中有360名司机在乡村的道路上在十字路口的停车信号前不停车。 

a . 建立原假设和备择假设，以便假定的调查研究是否能决定司机在十字路口的停车信号前不 

停车的比例发生变化？ ‘ 

b . 当 a =0.05 时，检验的临界点是什么？拒绝规则是什么？ 

c . 不停车的司机的样本比例是多少？ 

d . 计算检验统计量。 

e . 得出你的结论。 

50. 对壳牌石油公司办公人员进行调查，询问他们哪种工作安排更有吸引力 ：一天 8小时，一周5个工 
作日，或一天10小时一周4个工作日（仍/17 1 0^吁，5601 6 11^61'11,2000)。令户为办公人员喜欢一天 
10小时4个工作日的比例为一半。当 a = 0.01 时，对假设丑 0: p =0.50 和从: p #0. 50检验。由 
105名办公人员组成的样本中有67名工作人员喜欢一天10小时的一周4个工作日的安排。 

a . 喜欢一天10小时的一周4个工作日的安排办公人员的样本比例？ 

b . 检验统计量的大小？ 

c . p - 值的大小？ 

d . 得出你的结论。在这两个选择中是否有显著的偏好？ 

51. Drugstore , com 是第一家进行网上药品买卖的网络销售公司。 Drugstore , com 为其消费者提供了 
在网上进行购买保健、美容、个人护理和可重复使用药品的机会。在开通的10个月后，公司 
报告44% 的订单是来源于回头客（ Drugstore , com Annual Report , January 2, 2000) 。假定 Drug ¬ 
store . com 每季度抽取消费者的订单，从订单中决定回头客的订单比例是否还是原来 p =0.44。 

a . 建立原假设和备择假设。 

b . 在第一季度中由500份订单组成的样本中有205名回头客。求出 p - 值？当 a = 0.05 时， 
得出你的结论。 

c . 在第一季度中由500份订单组成的样本中有245名回头客。求出 p - 值？当 a =0.05 时， 
得出你的结论。 

52. 微软的 Outlook 被认为是最广泛使用的 e - mail 工具。一名微软执行官宣称微软的 Outlook 至少 
被75%的上网者使用。一份美林研究报告表明有72%的上网者使用微软的 Outlook ( CNBC ， 
June 2000) 。当 a =0.05 时，对下面的假设丑。： p 彡 0.75 和忧： p <0.75 进行检验。 

a . 假设美林样本大小为300名使用者，计算检验统计量的大小。 

b . p - 值的大小是多少？ 

c . 执行官的申明的至少75%是否被拒绝？ 

53. 一个快餐店决定计划实施一次特殊供应，使顾客能购买到专门印有著名卡通人物的杯装饮 
料。如果有15%的消费者购买了这种杯装饮料，则认为可以推行这种特殊供应。在某些地方 
已经进行的初步检验表明，500名消费者有88名购买了这种杯装饮料。试问是否应推行这种 
特殊杯装饮料供应？假设检验将会支持你的决定，当显著性水平为 0.01 时，得出你的建议。 



392 商务与经济统计 


54. 在垒球比赛中，就发生错误概率而言，第三垒是最难打的位置。考虑所有的第三垒选手，一 
般错误发生概率为4.7% (ESPN The Magazine，hily 12, 1999 ) 。一名全明星第三垒选手 
Brooks Robinson 在比赛中1 182次机会中只发生了 35次失误。这个样本是否支持 Brooks 
Robinson 比一般的第三垒选手犯比较少的错误的结论？取 0 ：= 0.01。 

a . 建立适当的原假设和备择假设。 

b . Brooks Robinson 发生错误概率的样本比例大小？ 

c . 计算检验统计量。 
d 计算值的大小。 
e . 得出你的结论。 

55. 至少有20%的工人愿意采用减少工作时间降低收入来获得更多的时间进行个人休闲活动。一 
项 而: K / CNN / Gallup 的民意调查表明，由596名应答者中有83人愿意减少工作时间降 
低收入来获得更多的时间进行个人休闲活动 （USA Today , April 10,1995)。当显著性水平为 
0.05 时，对假设 H 。： />為0.20 和札： /><0.20 进行检验，得出你的结论。 

9.7 假设检验和决策支持 

在 9.1 节中我们注意到，假设检验所使用的三种 形式： 

1. 检验研究中的假设。 

2. 检验某项声明的有效性。 

3. 决策支持中的检验。 

在前面两种情况下，只有当原假 设讯被 拒绝且得出备择假设 ft 为真的结论时，才需要采取 
相应措施。在第三种情况下——作出决策，不论是原假设拒绝与否，都有必要采取相应措施。 

在进行决策时，因为假设检验程序中没有考虑当丑。为真时接受的结论而采取相应的措 
施，所以它的应用受到很大的限制。当检验结果表明不能拒绝讯时，然而决策者不愿接受讯， 
因为决策者不愿承担犯第二类错误的风险，也就是说，当讯为假时才接受它。在前面的章节中 
所描述的假设检验程序中，第一类错误发生的概率能由检验中的显著性水平控制，但是，犯第二 
类错误的概率很难控制。 

很明显，在某些特定的决策中，决策者可能甚至不得不在 不能在 拒绝汛 和拒绝 丑。之间作出 
选择并采取相应的措施。对这种情况一个较好的解释是货物接收的例子，这个问题将在第20章深 
人讨论。例如，质量监管人员必须决定是从供应商处接受这船电池，还是因其质量差退还给供应 
商。假设供应商这批电池设计标准为使用寿命至少为120小时。为了评价这船电池的质量，选取 
36 节电池组成一个样本对其检验，根据样本来决定是否接受这船电池或因其质量差的原因退还给 
供应商。令 m 为这船电池的平均使用寿命时间。总体平均的原假设和备择假设 如下： 


Ho ： 120 
H a ： / x <120 
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如果队被拒绝，得出备择假设正确。这结论表明应作岀将货物退还给供应商的决定。但是，如 
果讯没被拒绝，决策者仍需决定采取何种措施。因为，没有直接得出执为真，只是仅仅不能拒 
绝 H 。， 决策者仍可以作出认为质量合格而接受这批货物的决定。 

在这种决策的情况下，我们可以将假设检验程序扩展到对第二类错误发生的概率进行讨论。 
因为当我们不能拒绝时，一旦作出决策并采取措施，知道第二类错误发生的概率是有用的。 
在第 9. 8节和第 9. 9节中，我们将介绍如何计算第二类错误发生的概率和如何通过样本大小来控 
制发生第二类错误的概率。 


9. 8计算第二类错误的概率 


在第一节我们将介绍如何计算对总体均值假设检验概率中发生第二类错误的概率。我们以 
9. 7节中所描述的货物接收问题为例。关于这批电池的平均使用寿命的原假设和备择假设为讯： 
从多120 和凡： 从<120。如果被拒绝，因为其平均使用寿命小于规定的120小时，则这批货物 
将退还给供应商。如果讯没被拒绝，将作出接收这批货物的决定。 

假定假设检验中显著性水平 a =0.05 时，检验统计量为 


%-II 120 

Z _ ^fn ^fn 

zoos = 1.645, 则左侧检验的拒绝规则为 


如果 z <- 1.645，则拒绝// 0 


假设由36个电池组成一个样本，根据以前的检验得知假设总体标准差 cr = 12 小时，则拒绝规则 
表明，当 



-1.645 


时，拒绝//。。上式的$的解表明，当 


- X < n 0-1.645(^-) =116.71 


时，拒绝//。。当 116. 71时表示拒绝//。。当$多116.71时，我们作出接收这批货物的决策。 

从上面的信息中了解到我们将计算与第二类错误相联系的概率。首先，当货物均值小于120 


小时而我们却作出接受 M 多 120 的决定时，我们就犯了第二类错误。因此，为了计算犯第二 
类错误的概率，我们必须选择小于 120 小时的从值。例如，假定如果电池的平均使用寿命的时间 
从 =112 小时，则这批电池被认为质量差。如果从 =112 为真，则接受//。： m 多 120 而犯第二类的 
错误概率？注意到该概率是当112时，样本平均值大于或等于 116.71 的概率。 

图 9. 14表示当平均值 / x =112 时， At 的抽样分布情况。在右侧的阴影部分表示5多116,71时 
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的概率。根据图 9. 14查标准正态分布表计算得 


x 一 _ 116. 71 一 112 

Z= a*/V7T = ~ *12/V36 


= 2.36 



图 9. 14当112时第二类错误的概率 

由标准正态概率分布可知，当 z = 2.36 时，其右侧面积为 0.500 0 - 0.490 9 = 0.009 1。因而， 
(X 0091是当从=112时发生第二类错误的概率。令尽表示发生第二类错误的概率，我们得出当 g = 
112,则 P = 0. 009 1。所以，我们得出当总体平均值为112小时，犯第二类错误的概率只有 0.009 1。 

对其他小于120的 M 值，我们可以重复计算过程，给出每一个 ai 值相应发生第二类错误的不 
同概率。例如，假定这批电池的平均使用 寿命 〆 =115小时。当$多116.71时，我们接受 H 。， 计 
算叫=115时的 z 值 



— 116.71 -115 

_ ~1 翁— 


= 0 . 86 


査找标准正态概率分布表可得，当 z = 0.86 时，其标准正态概率分布的右侧面积为0.500 0- 
0.305 1 =0.194 9。因而，当均值的真值 〆 二115时，发生第二类错误的概率 )3 = 0. 1949。 

在表 9.3 中给出了不同的小于120的 g 值发生第二类错误的概率。注意到， p 逐渐增加到 
120时，发生第二类错误的概率向右侧 0.95 增加。但是，当 m 向小于120的值减少时，发生第二 
类错误的概率逐渐减少。这种形式是我们所希望的。当总体 M 值越来越靠近原假设120,发生 
第二类错误的概率越高。然而，当总体平均真值 / x 远小于原假设120,我们发生第二类错误的 
概率越低。 
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表 9. 3货物接收的假设检验中发生第二类错误的概率 


弘值 I : 11 1 6 ^ ir ^ 发生第二类错误的概率 (抝 P 功效<1 -川 


112 

2.36 

0 ‘ 0091 

0. 990 9 

114 

1.36 

0. 086 9 

0.913 1 

115 

0.86 

0. 194 9 

0. 805 1 

116.71 

0.00 

0. 500 0 

0. 500 0 

117 

-0. 15 

0_ 559 6 

0. 440 4 

118 

-0.65 

0. 742 2 

0, 257 8 

119. 999 

-1.645 

0. 950 0 

0. 050 0 


如表 9.3 所示，第二类错误的概率依赖于总体均值 m 的值。对_附近的发生第 
二类错误的概率更大。因为/ X 值未知，所以无法测量发生第二类错误的概率。 


当丑。为假时，作出 拒绝汛 的正确结论的概率称做检验 的功效 ( power *)。 对于给定的/ X 值，功 
效为 1 也就是拒绝原假设的概率为 1 减去发生第二类错误的概率。表 9. 3 列示了每个/ X 的功 

效。根据这些值，将与每一个 /x 值相对应的功效值绘制在图 9. 15 中。这样的图被称为功 效曲线 
( powercurve )。 注意，功能曲线渐近于原假设为假时的 M 值。对于任意 A 值，功效曲线的高度表 
示当 J 7。 为假时作岀拒绝 ft 正确结论的概率、 



图 9. 15 货物假设检验的功效曲线 


*在另一张图中，有一条运营特征曲线，有时能提供造成第二类错误的概率的信息。运营特征曲线表明接受乩的概率，因 
而提供原假设是错误的 a 值的沒。发生第二类错误的概率也能直接从该图中读出。 
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总之，计算关于总体均值的假设检验中发生的第二类错误的概率的步骤 如下： 

1. 建立原假设和备择假设。 

2. 在显著性水平 a 下，根据检验统计量来建立拒绝规则。 

3. 利用拒绝规则，求检验落入拒绝域的样本均值的范围。 

4. 利用步骤 3 中的结果，说明接受 ft 时所对应的样本均值的值，这样也就同时定义了检验 
的接受域。 

5. 对于备择假设中的值，利用的抽样分布 5 检验从备样假设中的任意值和步骤 4, 计算 
样本平均值落在接受域的概率。该概率值是当选择时发生第二类的概率。 



方法 

56. 考虑下面的假设 检验: 


Ho ： 10 
H a ： jjb< 10 

样本容量为 120, 总体标准差已知 ， cr = 5, 取 a =0.05。 

a . 如果总体均值为9,样本均值产生不拒绝 i / o 的概率是多少？ 

b . 如果总体均值的真实值为9而我们得出/为真时，产生错误的类型? 

c . 如果实际的总体均值为8,产生第二类错误的概率？ 

57. 考虑下面假设 检验： 


Ho ： fx — 20 
H a ： /i#20 

样本由 200 项组成，总体标准差 cr = 10。 取 a = 0.05, 当总体均值如下，计算发生第二类错 
误的概率。 

a . /a = 18. 0 b . /I = 22. 5 c , fL = 2 L 0 

应用 

58. Fowle 市场调查公司假定电话调查可在15分钟以内结束，并据此向客户收费。如果调查需要更 
多的时间，则需要加额外费用。由35个调查电话组成的样本中，标准差为4分钟，显著性水 
平为0.01，利用样本平均值来检验原假设//。： 
a . 请解释该问题中的第二类错误？它对公司有什么影响？ 
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b . 当实际的平均时间为分钟时，发生第二类错误的概率？ 

c . 当实际的平均时间为分钟时，发生第二类错误的概率？ 

d . 画出该检验的功效曲线的一般形状。 

59. —个消费者调查小组对某一汽车生产商声明感兴趣，该汽车生产商称某种新的经济型 
繼二 - I 汽车消耗加仑汽油至少行驶25英里 ( H 0: fi ^25) 0 

' a . 当显著性水平为 0.02 时，样本容量为30辆汽车，则检验中根据值来决定生产商的 
声明将被拒绝？假设 o ■为3英里/加仑。 

b . 当实际的英里数为23英里/加仑，发生第二类错误的概率为多少？ 

c . 当实际的英里数为24英里/加仑，发生第二类错误的概率为多少？ 

d . 当实际的英里数为 25.5 英里/加仑，发生第二类错误的概率为多少？ 

60. Young Adult 杂志对订阅者的平均年龄作出如下 假设： 

Ho ： /x = 28 
Ha I 28 

a , 在这种情况下发生第二类错误意味着什么？ 

b , 已知总体标准差 （7=6 年，样本大小为100。当 a = 0.05 时，则当 / x 值分别等于26, 27, 
29和30时，接 受讯的 概率为多大？ 

c , 当 /x = 26 时功能为多少？这说明了什么？ 

61. 对某一产品生产线生产的产品进行检验，对填充重量的精度作如下 假设： 

假设 结论和措施 

Ho ： fi =\6 填充合格：继续运作 ' 

H a ： /4#16 填充偏移 标准： 停产并调整机器 

样本容量为30,总体标准差 cr =0.8， 取 a = 0.05。 

a . 在这种情况发生第二类错误意味着什么？ 

b . 当机器填充重量超过 0.5 盎司时，发生第二类错误的概率是多少？ 

c . 当机器填充重量超过 0.5 盎司时，检验统计量的功效为多少？ 

d . 画出检验假设的功效曲线。对生产管理者来说，这包含什么信息？ 

62. 参见习题58。假定公司选取50次调查组成一个样本，重复计算 ( b ) 和 ( c )。 你可观察到，随着 
样本含量的增加，发生第二类错误的概率将如何变化？ 

63. Sparr 投资有限公司专门为其顾客提供如何进行投资来延缓纳税的机会。最近 Span * 对某公司 
的员工提供了工资单扣减投资计划。 Sparr 估计现在该公司员工每月延长纳税的投资额不超过 
100美元。 Sparr 对由40名员工组成的样本对员工总体投资活动水平进行假设检验。假定员工 
每月延长纳税投资额的标准差为75美元。假设检验中取显著性水平为0.05。 

a . 在这种情况下，第二类错误表示什么意思？ 
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b . 如果实际员工每份平均投资额为120美元，发生第二类错误的概率为多少? 

c . 如果实际员工每份平均投资额为130美元，发生第二类错误的概率为多少？ 

d . 假定样本容量为80名员工，重复 ( b ) 和 ( c )。 


9.9 确定总体均值假设检验的样本容量 


假定对总体均值进行假设检验，由使用者事先指定的显著性水平决定了检验中发生第一类错 
误的概率。通过控制样本容量，使用者也能控制发生第二类错误的概率。下面我们将介绍如何在 
总体均值单侧检验中确定样本容量。 

Ho ： 

H a ： fi<jJo 

图 9. 16 的右部表示当为真时#=叫，5的抽样分布。注意使用者实现指定的显著性水平 
a 确定了检验的拒绝域 。令 c 代表临界值，则5<0确定了检验中的拒绝域。以&表示标准正态 
概率分布左侧面积为《时所对应的 z 值，利用下面公式计算 c 值： 



(9.11) 



图 9. 16 给定第一类错误水平 （《) 和第二类错误水平 (0) 的样本容置的确定 
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现在考虑图 9. 16左侧的抽样分布。当//。为假而乩：~<抑为真时，我们专门选取&代表总 
体均值。我们假定当总体均值为&时，使用者可以接受的第二类错误的概率。在图 9. 16中此概 
率用0表示。以 a 为标准正态概率分布左侧面积为办时所对应的 z 值，可利用下面公式计算临 
界值 


十 Zf 


y[~ri 


( 9 . 12 ) 


因为公式 (9.11) 和 (9. 12) 都是 c 的表达式，我们可知他们相等，因此下述的表达式正确: 


<7 


fM)-ZcT 




fU + Zf 




为了确定所要求的样本容量，我们能求 




P ^ 


V n 


和 


厂 二 (Za + ZB)<T 

' (片> 一 叫） 


表达式两边开算术平方根，即得到如下所示的总体均值单侧检验的样本容量公式 


总体均值单侧假设裣验中所黑的祥本容屋 



(Za + Zfl)V 

U 一 (抑 -/O 

(9.13) 

式中 Z a —— 

Z 0 — 

一标准正态分布的一侧面积为 a 的 z 值； 

一 标准正态分布的一侧面积为 )8 的 z 值； 


a 

一总体标准差； 


fio — 

一原假设中总体 均值； 


抖― 

一第二类错误所采用的样本均值。 


注意： 在双侧检验中，公式 (9. 13) 中以 z a / 2 代替 



虽然公式 (9. 13) 是由图 9. 16中显示的假设检验逻辑推演得到的，但其对一个总体均值的单侧 
检验也成立。注意在一个总体均值的双侧检验中，应采用而不是 Za 。 


我们仍回到 9. 7节和 9. 8节中货物接受的例子。这批电池设计的规格为电池的平均寿命至少 
为120小时。如果讯： /X 多120被拒绝，则这批货物将被拒绝。我们假定质量监管人员对第一类 
错误的概率和第二类错误的概率作出如下表达： 




400 商务与经济统计 


关于第一类错误的 说明： 如果这批电池的平均寿命为 / x =120, 那么我愿意冒 a =0.05 的风 
险概率拒绝这批货物。 

关于第二类错误的 说明： 如果这批电池的平均寿命比规格要求少5个小时（即 / x =：115), 那么 
我愿意冒 P = 0. 10的风险概率拒绝这批货物。 

这些说明是建立在管理者的判断基础上的。不同的人对此概率作出不同的限制。但是，在样 
本容量被确定之前，必须对发生两类错误的概率作出说明。 

在这个例子中， a =0. 05,卢= 0.10。査标准正态分布表的20.05 = 1.645，从关于 
错误的概率中，我们注意到 /xo = 120, /^ = 115 0 最后，总体标准差 cr = 12 已知，利用公式 
(9.13), 我们得出货物接受例子中建议的样本容量为 

^(1.645 + 1.28) 2 (12) 2 
n ~ (120- 115 ) 2 J 

四舍五入，建议样本容量为50。 

当 a = 50, 因为第一类错误和第二类错误概率被控制在允许水平下，所以在假设检验中质量 
监管人员要在接受讯和拒绝払之间作出判断，在所允许发生第一类错误和第二类错误的概率内 
作出相应的 推断。 

我们观察到 a 、 和样本容量的 关系： 

1. 如果三个中其中有两个已知，则可计算出第三者。 

2. 对于给定的显著性水平 a ， 增加样本容量可减少 0。 

3. 对于给定的样本容量，减少 a ， 则增加0，反之，提高 a ， 则降低/3。 

当未能对第二类错误控制，我们应该牢记第三条。这表明不能没必要选择太小的显著性水 
平。对于给定样本容量，选择较小的显著性水平意味着将使发生第二类错误的风险增大。缺乏经 
验的使用者，认为在假设检验中 a 越小越好。当我们只考虑第一类错误时，确实如此。然而，不 
利的是，较小的 a 值将增大发生第二类错误的概率。 



方法 

64. 考虑下面的假设 检验： 

Ho: fi^lO 
Ha ： / X < 10 

样本容量为 120, 总体标准差为 5。 取 a = 0.05, 如实际总体均值为 9, 第二类错误的概率为 
0.2912。 假定研究者想减少第二类错误的概率到 0,10。 当实际总体均值为 9, 建议的样本容 
量的大小为多少？ 



65. 考虑下面的假设 检验: 
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Hq ： 弘= 20 

//a ： fl^20 

总体标准差为10。取 a = 0.05。 当实际总体均值为22,研究者愿意接受发生第二类错误的概率为 
0.05, 建议的样本大小为多少？ 

a 

应用 

66. 假定在 Hilltop 咖啡研究中，计划负责人要求在实际重量少于1盎司 U =2. 937 5磅）而我们却 
没对 Hilltop 提出上诉（见第 9. 3节）的概率为 0. 10,则建议的样本容量为多少？ 

67. 某种工业电池的寿命至少为400小时。假设检验中显著性水平为0.02。如果某生产过程中生 
产的电池的实际平均寿命为385小时，生产管理者想建立样本程序，保证错误接受这批产品的 
概率不大于10%。假设检验中应该采用多大的样本？取总体标准差的估计值为30小时。 

68. Young Adult 杂志对其订阅者的年龄的均值建立如下 假设： 

Ho： jJb-2% 

H a ： / i ^28 

如果管理者进行检验时，当实际平均年龄为29时，允许发生第二类错误的概率为 0.15, 选择 
样本的容量？假定 cr = 6, 显著性水平为0.05。 

69. 对汽车里程研究者，对下面的假设检验进行 检验： 

假设 结论 

Ho: / i ^25 mpg 支持生产商的.声明 

H a ： fx< 25 mpg 拒绝生产商的 声明； 每加仑的里程水平小于说明中的值 

取 cr = 3， 显著性水平为0,02，如果研究者想以80%的可能性认为小于25英里（实际为 

24), 那么应该选取多大的样本容量？ 、 

\ 



假设检验是利用样本数据来确定关于总体参数数值的某项说明应该或不应该被拒绝的统计程 
序。考虑到样本源的不同情况，必须有两个对立的 假设： 原假设好。和备择假设札。在某些应用 
中如何建立原假设和备择假设不是显而易见的。在 9.1 节我们建议谨慎构建三种通常形式的假设 
检验 D _ 

图 9. rr 总结了总体均值假设检验的检验统计量，并提供了选择假设检验程序的实践规则。 


* 在某些例子中，使用非参数统计方法进行假设检验。在第19章将讨论这些方法。 
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图中说明检验统计量依赖于样本是否是大样本，总体标准差是否已知，在某种情况下，总体是否 
是正态或近似正态概率分布。如果样本是大样本 （n 多30)，假设检验可利用 z 来检验。如果样本 
是小样本 （ n <30)， 总体必须是正态或近似正态分布时，才能利用对 m 值进行假设检验。如果 cr 
已知，则利用 Z 检验统计量。如果 CT 被样本标准差替代，则利用《检验统计量。最后，注意到如 
果样本太小，而且关于总体是正态分布不合适，则我们建议将样本容量提高到 n 為30。 

假设检验程序的拒绝规则都是将检验统计量的值与临界值相比较。对于左侧检验，如果检验 
统计量小于临界值，则拒绝原假设。对于右侧检验，如果检验统计量大于临界值，则拒绝原假 
设。对于双侧检验，如果检验统计量落在抽样分布的任一侧，则拒绝原假设。 

我们同样可使用值进行假设检验。当原假设为真时，值为所获得的样本结果至少与实测 
结果不同的概率。利用值进行假设检验时，当值小于 a 时，拒绝规则要求我们拒绝原假设。 

将假设检验程序扩展，给出第二类错误的分析。在 9. 8节，计算发生第二类错误的概率。在 9. 9 
节中，我们介绍如何确定样本容量来保证我们能够控制发生第一类错误和第二类错误的概率。 



图 9. 17 关于总体均值假设检验的检验 统计置 的总结 
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术语辞义 


原 假设： 在假设检验的程序中，首先假定为真的假设。 

备择 假设： 在拒绝原假设时被认为是真的假设。 

第一类 错误： 当//。为真时却拒绝所犯的错误。 

第二类错 误：当 //。为假时却接受 // D 所犯的错误。 

显著性 水平： 发生第一类错误最大允许的概率值。 

拒 绝域： 产生拒绝原假设结论的值的范围。 

检验统计量： 决定是否拒绝原假设的统计量。 

临 界值： 与检验统计量相比较，用于确定是否拒绝//。的值。 

单侧 检验： 假设检验的一种，当检验统计量的值在抽样分布的某一侧时，拒绝原假设。 

双侧 检验： 假设检验的一种，当检验统计量的值在抽样分布的任一侧时，拒绝原假设。 

值： 当原假设为真时，所获得的样本结果至少与实测结果不同的概率值，它通常被成为显著 
性水平。 

功效： 当 ft ) 为假时，作出 拒绝执 的正确结论的概率。 

功效 曲线： 是一种用于拒 绝执的 概率曲线图，由所有不满足总体参数原假设的值构成。 





大样本情形下 （ M 多 30) 总体均值单侧检验的检验统计置 


(7 


已知 


<r/f^ 


( T 未知以替代 CT Z = 




小样本情形下（〃<30)总体均值单侧检验的检验统计置 


(7 


已知 


0-//7T 


CT 未知以 S 替代 CT t 


总体比例假设检验中的检验统计量 


, 




po 


(9.1) 

(9.2) 


(9.7) 

(9.8) 


( 9 . 9 ) 
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式中 = 」气，) 

总体均值单侧检验中所需的样本容量 

(Za + ZeYcr 1 
11 ~ (/lo-jla ) 2 

在双侧检验中，以 〜替代 & /2 。 


种充炼 


70. 纽约州公立中学教师的总体年薪均值为45 250美元。纽约市公立中学老师组成的样本平均年 
薪为47 000美元 （ Hme,April 3, 2000)。假设纽约市的数据是基于95名教师组成的样本。样本 
标准差为6 300美元。 

a . 建立原假设和备择假设，以便于决定样本数据是否支持纽约市公立中学的老师的平均年薪 
比纽约州公立中学老师平均年薪要高？ 

b . 计算检验统计量的大小。 

c . 计算 p - 值的大小。 

d . 当 a : = 0.01 时，得出你的结论。 

71. Ford Taurus 被列为在高速路上行驶每加仑汽油平均功效为30英里 （1995 Motor Trend New Car 
Buyer’s Guide )。 一个保护消费者利益的小组对汽车进行检验，通过检验想搜索统计证据来证 
明汽车生产商夸大汽车汽油的每加仑英里的功效。在 Ford Taurus 例子中，假设检验 如下： 
Ho ： ^30, H a ： 从<30。从 Ford Taurus 的 50 次行驶检验组成的样本中，保护消费者利益小 
组获得在高速路上行驶的样本平均功效为 29.5 每加仑英里，样本标准差为每加仑 1.8 英里。 
从 * 样本结果中得出你的结论，取显著性水平为0.01。 

72. 据佛罗里达州 Gulf Coast 社区的商业广告称，该地区住宅房产每块地皮的平均成本不超过 
25 000美元。取显著性水平为0.05,检验这项申明的有效性。假定由32块房产组成的样本每 
块地皮为26000美元，样本标准差为2500美元， p - 值为多少？ 

73. 某种生产淋浴用的肥皂过程的设计规格为每批平均生产120块肥皂。超过或低于这个标准都 
是不合理的。由10批产品组成的样本中，每批生产的产品数量如下，假定总体为正态。 

108 118 120 122 119 113 124 122 120 123 

取显著性水平为 0.05, 检验该样本结果能否表示该生产过程运作正常与否。 

74. 某个城市里两室公寓的月租金为平均550美元。假定我们想检验讯：从= 550和忧 ：从/ 
550。选取36间两室公寓的租金作为样本，样本平均值为$ = 562美元，样本标准差$=40 
美元。 


(9.10) 


(9.13) 
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a . 当 a =0.05 时，利用检验统计量进行假设检验。 

b . 计算 p - 值。 

75. Stout Electric 公司的一队卡车是专门为建筑公司提供电力服务的。每辆卡车平均维持费用为75 
美元。由40辆卡车组成一个样本，该样本平均维护成本为每月 82.50 美元，样本标准差为30 
美元。管理人员想通过检验来决定是否平均每月的维护费用增加。 

a . 当显著性水平为 0.05 时，检验的拒绝规则是什么？ 

b . 当样本均值为 82. 50美元时，你的结论是什么？ 

c . 与样本结果相联系的 p - 值为多少？根据 p - 值得出你的结论。 

76. 在建筑计划投标中， SonnebomBuilders 有限公司假设建筑工人有15%的空闲时间，因而在正 
常的8小时的工作制下，每位工人每天的平均空闲时间不超过72分钟。由30名建筑工人组 
成的样本中，建筑工人每月空闲时间为80分钟。样本标准差为20分钟。设计一个假设检验 
程序来检验公司假设的有效性。 

a . 计算与样本结果相联系的值。 

b . 你的结论是什么？ 

77. 60% 的美国人认为商业利润分配不合理 （ General Social Surveys , National Opinion Research Cen ¬ 
ter , University of Chicago ) G 假定在由 40 名中西部人组成的样本中，有 27 人相信商业利润分 
配不合理？ 

a . 这个结果是否能推断大部分中西部人相信商业利润分配不合理？取 a =0.05。 

b . p - 值为多少？ 

78. 一份针对商务旅游者的促销计划是根据大约有2/3的商务旅游者在过夜的商务旅行中使用 

“膝上”电脑。取 a = 0.05， 对这个假设进行检验 ft : p =0.67， ft : p ，0,67。 从美国快递 
在线调查中的样本结果发现，546名商务旅行者有355名在过夜的商务旅行中使用“膝上”电 
脑 （ The Cincinnati Enquirer , August 31, 1998) 0 

a . 样本比例的大小为多少？ 

b . 计算检验统计量的大小。 

c . p - 值的大小为什么？ 

d . 能否拒绝这项声明？试讨论。 

79. 1993年美国移民和归化局报道，79% 的外国 旅游者参观美国主要目的是度假。在2001年对这 
项研究继续调查，由500名外国旅游者组成的样本中有360名声明他们参观美国的主要原因 
是度假。试问2001年来美国旅游度假的外国游客的比重比以前少了？取显著性水平为0.05, 
利用检验统计量来支持你的结论？ 

80. Gallup 根据一个国会小组即国家职业信息协调委员会提高工作信息的使用率的要求对1 350人 
进行一次调查。关于这次调查的问 题是： 个人得到的工作是他计划想得到的，还是缺乏选择机 
会或者说是由于偶然原因而得到的？令 p 代表求职中能如愿以偿得到他们所计划得到的工作的 
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人所占的比例。 

a . 如果假设为执 ： p 多0,50和 7/ a: p <0. 50,按照研究者的调查结果讨论所研究的假设认。 

b . Gallup 民意调查中发现，有41%的应答者认为他们得到了他们所计划得到的工作。在显著性 
水平为 0.01 下，你的结论是什么？试解释。 

81. 一名著名的医生假设有75%的女性所穿的鞋过小。.美国足部和踝部矫形协会对356名妇女调 

» 

查发现，其中有313名妇女所穿鞋子的号码至少小了 一号。取 a =0.01， 检验讯： p =0. 75 
和 // a: p #0.75。 你的结论是什么？ 


82. 运输部门报道 Amtrack 列车在过去的12个月里准点到达的记录为78% ( USA Today , November 
23, 1998)。假定在2001年进行调查，发现400辆 Amtrack 列车有330辆准点到达。是否检验 
结果表明 Amtrack 列车准点到达率改变了？当 a =0. 05时，检验 i / o : p =0,78 和 H a : p #0.78。 

a . Amtrack 列车准点到达的样本比例为多少？ 

b . 计算检验统计量。 

c . 计算 p - 值的大小。 

d . 得出你的结论。 

83. 据 Myrtle Beach 的电台报道，在纪念日的周末至少有90%的旅馆和汽车旅店会爆满。电台建 
议听众在周末想来风景点度假的话，请事先预定，星期六的晚上，一个由58家旅馆和汽车旅 
店会组成的一个样本，样本表明49家挂出无空房的招牌，有9家还有空房。在看了这些数据 
后，你对电台的报道有什么反应？取 a =0. 05,进行统计检验，求出 />- 值？ 

84. 环境健康指标包括空气指标、水指标和食物指标。在25年前，美国食物样品中有47%存在杀 

虫剂残留物 （ MS . World Report , April 17, 2000) 。在最近的研究中，125份样本食物有 

44份存在杀虫剂残留物。检验假设讯： p 為 0.47 和认： p <0.47。 

a . 样本比例为多少？ 

b . 计算检验统计量的值。 

c . p - 值为多少？ . 

d . 当 a = 0.01 时，你的结论是什么？ 

85. 参见习题76。 

a . 当平均空闲时间为80分钟时，发生第二类错误的概率是多少？ 

b . 当平均空闲时间为75分钟时，发生第二类错误的概率是多少？ 

c . 当平均空闲时间为70分钟时，发生第二类错误的概率是多少？ 

d . 画出该问题的功效曲线。 

86. 一个美国联邦救济方案仅适用于低收入地区。一个地区平均每年平均家庭收入小于15000美 
元，该地区才能有资格得到这份补助。每年平均家庭收入大于或等于15000美元的地区将没 

N 

有资格得到补助。根据该地区居民所组成的样本，在显著性水平为 0.02 下进行假设检验，来 

决定该地区是否有资格得到这个资助。如果补助规则要求，一个地区平均每年平均家庭收入 

1 

小于14 000美元不能得到补助的概率最大不超过 0.05 的话，那么在补助决策研究中应采用多 
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大的样本容量？取^=4000美元作为计划值。 

87 .用7/。： / i =120 和从： 120 来检验淋浴用的肥皂生产过程是否满足每批产量为 120 块的标 
准。取显著性水平 a 为 0.05, 标准差的计划值为 5。 

a . 如果实际产量为每批 117 块，公司想有 98% 的机会得出该标准产品产量未达到的结论，应 
籴用的样本容量是多少？ 

b . 利用 （ a ) 的样本容量，当实际平均产量为每批 117、118、119、121、122 和 123 块肥皂？ 
也就是说，在每种情况下，发生第二类错误的概率的大小是多少？ 


案例研究1 Quality Associates 有限公司 

Quality Associates 是一家咨询公司，是为其客户监控生产过程提供抽样和统计程序的建议。 
在某一应用中，客户为 Quality Associates 提供了其生产过程运行的800个观测值组成的样本。这 
些数据的样本标准差为0.21，因此，总体标准差假定为0.21 。 Quality Associates 建议抽取样本容 
量为30的样本，定期连续监控这一生产过程。通过分析这些样本，客户可以迅速了解到该生产过 
程是否运作正常。当生产过程运作不正常时，可釆取适当措施来减少这些问题。该生产过程设计 
规格为12 。 Quality Associates 建议釆取下面的假设检验。 

Ho ： /a =12 
Ha ： 12 


一 旦讯被 拒绝，则应采取措施。 

以下的样本是新的统计监控程序运行的第一天，每隔一个小时收集到的。它们被存在数据集 
Quality 中。 



CD 光盘数据 
Quality 


样本1 

样本2 

样本3 

样本4 

11.55 

11.62 

11.91 

12. 02 

11.62 

11.69 

11.36 

12.02 

11.52 

11.59 

11.75 

12. 05 

11.75 

11. 82 

11.95 

12. 18 

11.90 

11.97 

12. 14 

12. 11 

11.64 

11.71 

11.72 

12.07 

11.80 

11，87 

11.61 

12. 05 

12.03 

12. 10 

11.85 

11.64 

11.94 

12.01 

12, 16 

12.39 

11.92 

11.99 

11.91 

11.65 

12. 13 

12.20 

12. 12 

12. 11 

12.09 

12. 16 

11.61 

11.90 

11.93 

12.00 

12.21 

12.22 
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(续表) 


样本 1 

样本 2 

样本 3 

样本 4 

12. 21 

12.28 

11,56 

11.88 

12. 32 

12.39 

11.95 

12.03 

11.93 

12.00 

12.01 

12.35 

11. 85 

11.92 

12.06 

12. 09 

11.76 

11.83 

11.76 

11.77 

12. 16 

12.23 

11.82 

12. 20 

11.77 

11.84 

12. 12 

11.79 

12. 00 

12.07 

11.60 

12. 30 

12.04 

12. 11 

11.95 

12.27 

11.98 

12. 05 

11.96 

12. 29 

12. 30 

12. 37 

12. 22 

12. 47 

12. 18 

12.25 

11.75 

12.03 

11.97 

12.04 

11.96 

12. 17 

12. 17 

12, 24 

11，95 

11.94 

11.85 

11.92 

11.89 

11.97 

12, 30 

12.37 

11.88 

12. 23 

12. 15 

12.22 

11.93 

12. 25 


管理报告 

1. 对每个样本，取显著性水平为0.01，进行假设检验，并在需要采取措施时，确定采取何种 
措施？给出每次检验的检验统计量和 P -值。 

2. 计算这四个样本的标准差。假定总体标准差 0. 21是否合理？ 

3. 当样本平均值在 12 附近的多大范围内，我们可以认为该生产运行正常？如果超过上限 
或低于下限，则釆取求证措施。在质量控制中，这上限或下限被称作右侧或左侧的控制 
限。 

4. 当显著性水平增大时，这表示什么意思？这时，如果这样做，哪种错误或误差将增加？ 


案例研究2失业研究 


美国就业统计局每月公布失业统计数据，包括失业人数和平均失业时间。在 1998 年 11 月， 
美国就业统计局报告平均失业时间为 14. 6 个星期。 

费城市长对费城地区的失业状况进行调查。由费城的 50 名失业居民组成的样本中包括失业年 
龄和失业周期。在 1998 年 11 月收集的部分数据如下。完整数据集在光盘文件 BLS 中。 
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CD 光盘数据 
BLS 


年龄 

周数 

56 

22 

35 

19 

22 

7 

57 

37 

40 

18 

22 

11 

48 

6 

48 

22 


年龄 

周数 

25 

5 

40 

20 

25 

12 

25 

1 

59 

33 

49 

26 

33 

13 


管理报吿 


1. 利用描述统计来总结数据。 

2. 对费城地区的失业平均年龄建立 95% 置信区间估计。 

3. 进行假设检验，以便于决定是否支持费城平均失业周期大于全国平均失业周期的 14.6 
周？取显著性水平 a =0.01, 你的结论是什么？ 

4. 个人失业年龄和失业周期数之间是否有关系？请解释。 


附录 9. 1用 Minitab 进行假设检验 

在附录中，我们将介绍如何对大样本和小样本的总体进行检验。 


大样本情形 



CD 光盘数据 


Distance 


在表 9. 2中我们用高尔夫球射程例子来解释了大样本情形。将数据输人 Minitab 工 
作表的 C1 中。假设检验的显著性水平 a=0. 05, 总体标准差 cr 用样本标准差 s 估 
计。采用下面步骤对假设讯：弘= 280和 // a: / x /280 进行 检验： 

步骤 1 . 选择下拉菜单 Calc ; 


步骤 2. 选择 Column Statistics ； 


步骤 3•当 Column Statistics 对话框出现时: 


选择 Standard Deviation ； 

在 Input variable 对话框中键入 Cl ; 
在 Store result in 框内键人 stdev ; 
点击 OK ; 

步骤 4. 选择 Stat 下拉 菜单； 

步骤 5.选择 Basic Statistics 下拉菜单； 
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步骤 6. 选择 1 -Sample Z ； 

步骤 7 .当 1-Sample Z 出 现时： 

在 Variables 框中键入 Cl ; 

在 Sigma 框中选择 stdev ; 

在 Test mean 框中键入280； 

选择 Options; 

步骤8.在 Confidence level 框中键入 95*; 

在 Alternative 框中选择不相等； 

点击 OK ; 

步骤 9. 点击 OK 。 

图 9. 8中的假设检验结果中， Minitab 程序中提供了总体均值的95%置信区间。 

在对 Superflight 高尔夫球问题所做的研究中，利用样本标准差代替总体标准差 cr 。 在大样 
本的假设检验中如果 （7 已知，第一步到第三步的程序被略去。在这种情况下，从第四步开始，在 
第七步中在 Sigma 框中键人适当的 （7 值。最后，在对 Superflight 高尔夫球问题所做的研究中，所 
涉及到的假设检验是双侧检验。我们只需简单地在第八步的 Alternative 框中选择 less than 或 
greater than 选项，便可以将该程序很容易转化为适用于单侧检验的情况。 


小样本情形 



CD 光盘数据 


在第 9. 5节中研究的 Heathrow 机场评定级别的问题中，我们介绍其方法。假定将 
数据输入 Minitab 工作栏中的 C 1 中，检验中显著性水平《=0.05,利用样本标准差 s 
代替总体标准差 o "。 采用下面的步骤来对假设//。： 〆 矣7 和札： / x >7 检验： 


Heathrow 


步骤 1 . 选择 Stat 下拉 菜单; 


步骤 2 . 选择 Basic Statistics 下拉菜单； 
步骤 3. 选择 1 -Sample t ; 

步骤4 .当 1 -Sample t 出现时： 

在 Variables 框中键入 Cl ; 

在 Test mean 框中键入7; 

选择 Options ; 

步骤5 .在 Confidence level 框中键入95; 


在 Alternative 框中选择 greater than ； 
点击 OK ; 

步骤6.点击 OK 。 


• Minitab 可同时进行假设检验和区间估计^使用者可选择关于总体均值的区间估计的任何显著性水平大小，这里的置信度为 
95% □ 
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在这个程序中利用样本标准差 S 代替总体标准差 CT 。 在小样本假设检验中，如果 O ■已知，可 
以使用大样本 1 -Sample Z 程序的步骤4到步骤9,在步骤7中将适当的 cr 值键入 Sigma 框中。最 
后， 研究的 Heathrow 机场评定级别的问题所涉及的是单侧假设检验。我们只需简单的在步骤5的 
Alternative 框中选择 less than 或 not equal 选项，便可以进行其他假设检验。 


附录 9. 2用 Excel 进行假设检验 


大样本情形 



CD 光盘数据 


Distance 


在表 9. 2中我们用高尔夫球射程例子来解释了大样本情形。在 Excel 工作表中， 
变量 Yards 在单元格 A 1 中，单元格 A 2 到 A 37 中存放着36个射程的数据。注意假设 
检验的显著性水平 a = 0.05,总体标准差0■用样本标准差 s 替代。 

用 Excel 进行假设检验相对简单的方法是建立扩展的工作表，并利用 p - 值临界值 
得出你的结论。我们建立的工作表在图 9. 18中。采取下面的步骤检验执 ： /x = 280 和 


H a : 280 ； 


步骤 1. 在单元格 D 2 中键人280; 

步骤 2. 在单元格 D 6 中计算样本 容量； 

== COUNT ( A 2： A 37) 

步骤 3. 在单元格 D 7 中计算样本平 均值； 

= AVERAGE ( A 2: A 37) 

步骤 4. 在单元格 D 8 中计算样本标 准差； 

= STDEV ( A 2： A 37) 

步骤 5. 在单元格 D 9 中计算检验统 计量； 

= ( D 7- D 2) /( D 8/ SQRT ( D 6)) 
步骤 6. 在单元格 D 10 中计算值。 

= 2*(1 - NORMSDIST ( ABS ( D 9))) 

单元格 D 9 中包含了检验统计量的 公式： 


X- fJU) 

单元格 D 10 包含了计算 p - 值的公式，将 />- 值和单元格 D 9 中的正态分布的双侧面积相关的检验 
统计量 z 比较。 

在对 Superflight 高尔夫球研究中利用样本标准差 s 代替总体标准差 o "。 在大样本假设检验 
中如果0■已知，因为没有必要计算，可直接将 C 值键人单元格 D 8 中。最后，对 Superflight 高 
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尔夫球研究涉及到双侧检验。只需要进行简单修改，可适用于单侧检验。当拒绝域在左侧时，单 
元格 D 10 中公式 = N 0 RMSDIST ( D 9) 给出 p - 值； 当拒绝域在右侧时，单元格公式=1 - NORMS - 
DIST ( D 9) 给出 />- 值。 



图 9. 18 Superflight 离尔夫球用 Excel 假设检验的扩展栏 


小样本情形 



CD 光盘数据 
Heathrow 


在第 9. 5节中研究的 Heathrow 机场评定级别的问题中，我们介绍其方法。在 Excel 
工作表中，变量 Rating 键人 A 1， 单元格 A 2: A 13 中存放12个评定级别数据。取显著 
性水平 a =0.05, 用样本标准差 s 代替总体标准差图 9. 18示出了扩展的工作 
表。采取下面的步骤对假设//。： g 名7和 // a: //>7 检验： 


步骤 1. 在单元格 D 2 中键人7; 

步骤 2. 在单元格 D 6 中计算样本 容量； 

= C 0 UNT ( A 2: A 13) 

步骤 3. 在单元格 D 7 中计算样本平 均值； 

= AVERAGE ( A 2： A 13) 

步骤 4. 在单元格 D 8 中计算-本标 准差； 

= STDEV ( A 2: A 13) 

步骤 S . 在单元格 D 9 中计算检验统 计量； 

= ( D 7- D 2) /( D 8/ SQRT ( D 6)) 

步骤 6. 在单元格 D 10 中计算 p - 值。 

= IF ( D 9>0, TDIST ( D 9, D 6-1, 1) ,1 -TDIST ( ABS ( D 9) , D 6- l , l )) 









单元格 D 9 中包含了检验统计量的 公式: 
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一 sAjV 

单元格 D 10 包含了计算 />- 值的公式，将 />- 值和 f 分布面积相关的检验统计量 t 比较。因为计 
算 p - 值公式依赖于单元格 D 9 中的检验统计量正负，因此这个公式相对复杂。 

在对 Heathrow 机场研究中利用样本标准差 s 代替总体标准差 o *。 在小样本假设检验中如果 a 
已知，因为没有必要计算，可直接将 tr 值键人单元格 D 8 中。在这种情况下，检验统计量 z 和相 
关的 P _值与大样本情形下的公式一样。 

最后，对 Heathrow 机场研究涉及到右侧的单侧检验。只需要进行简单修改，可转化为适用其 
他假设检验。例如，当拒绝域在左侧时，单元格 D 10 中公式= IF ( D 9>0, l - TmST ( D 9， D 6- l , l ), 
TDIST ( ABS ( D 9)， D 6_1,1)) 给出 p - 值，当是双侧检验时，单元格公式 = TDIST ( ABS ( D 9), D 6-1, 2) 
给出/> - 值。 






两个总体均值和比例的统计推断 


统计 实例： FISONS 公司 

10.1 两个总体均值之差的 估计： 独立样本 

3c ,-^2 的抽样分布 

Mi - Afo 的区间估计：大样本情形 

Mi - Afo 的区间估计：小样本情形 

10.2 两个总体均值之差的假设 检验： 独立样本 

大样本情形 
小样本情形 

10.3 两个总体均值之差的统计 推断： 匹配样本 
10.4 两个总体比例之差的统计推断 

PI - P 2 的抽样分布 
Pi — pi 的区间估计 
关于广-内的假设检验 
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FISONS 公司 

罗切斯特，纽约州 

位于纽约州罗切斯特的 Fisons 公司，是英国 
Fisons 跨国公司的子公司之一。 1966 年， Fisons 公司 
在美国开始有业务了。 

Fisons 公司的制药部门大量采用统计学方法检 
测、开发新药。制药业中的检测过程通常分为三个阶 
段： （ 1 ) 临 床前的 使用； （ 2) 长期服用安全性 检测； （ 3) 
临 床效果检测。在每个阶段，药物能够通过严格检测 
的机会很少。尽管如此，用于进一步检测的费用依然 
大量增加，行 I 调查表明，研究开发一种新药平均需 
要用 12 年时间，花费 2. 5 亿美元。因此，在早期的检 
测过程中排除不成功的新药，以及识别可用于进一步 
研究的有开发前景的新药就显得相当重要了。 

在药物研究中，统计学起了重要作用，政府部门 
对此有严格规定而且执行也很严格。在临床前的检 
测中，要决定一种新药能否继续用于长期使用和安全 
性检验，一般要对两个或三个总体进行统计研究，总 
体一般由新药、对照药和标准药组成，临床前检测过 
程是从将一种新药送交药理组评价，检验出药物产生 
药效开始。作为检验过程的一个环节是请一位统计 
学家来设计检测新药的实验。该实验必须详细说明 
样本容量和统计学分析方法。在两个总体的研究中， 
一个样本用于获得新药（总体 1) 的药效数据，第二个 
样本用于获得标准药（总体 .2) 的药效数据。根据需要 
的不同，新药和标准药将在神经学、心脏病学及免疫 
学等一些学科进行检测。在多数研究中，统计学方法 
包括对有关新药总体和标准药总体均值之差的假设 
检验。如果一种新药同标准药相比缺乏药效或有副 
作用，那就要放弃对它进行进一步检测。只有那些 



统计方法应用于新药的研制开发 。 © Mark Richards/ 
PhotoEdit. 


同标准药相比，表现出广阔前景的新药，才能可以 
进行长期服用安全性检测。 

研究者进一步收集数据，进行多种总体研究， 
并将其贯穿于长期使用。在安全性检测及临床检验 
的过程中，美国联邦食品药品管理局 （ FDA) 要求 ，必 
须在这些检验之前确定统计方法，以避免与有关数 
据有关的偏差。另外，有些临床实验是双重或三重 
保密，为了避免人为因素的偏差。也就是说，无论被 
检者还是调查者都不知道哪种药分配给谁。如果一 
种新药达到了标准药的所有要求， FDA 将批发一份 
新药应用 （ NDA) 文件。该文件将由主管部门的统计 
学家和科学家进行严格细致的审阅。 

在本章中，你可以学到有关两个总体均值、比 


例之差和如何构造区间估计进行假设检验。这些方 
法将通过分析独立随机样本和匹配样本介绍给读 



第 10 章两个总体均值和比例的统计推断 417 


在第8章和第9章中，我们讲述了如何对一个总体均值及比例进行区间估计和假设检验。在 
本章中，我们将继续统计推断问题的讨论，讲述当两个总体均值或比例之差很重要的情况下，如 
何进行两个总体情形的区间估计和假设检验。比如，我们可以对男女两总体平均起始工资之差进 
行区间估计，或者，对供应者 A 、 B 生产的产品次品率的差异进行假设检验。我们将通过一个实 
例来讨论两总体均值和比例统计推断，该实例介绍了由 Greystone 百货公司进行一种抽样调査中， 
怎样对两个总体均值之差进行区间估计。 


10. 1两个总体均值之差的 估计： 独立样本 

Greystone 百货公司在纽约州的布法罗开了两家 商店： 一家在市中心，另一家在郊区购物中 
心。某地区的经理发现在一家商店畅销的东西不一定在另一家好卖。经理认为这种情况应归为两 
地顾客群体的差异，即顾客可能在年龄、受教育程度和收入等方面存在差异。假设经理要求调査 
两家商店顾客年龄上的差异。 

我们定义总体1为市中心商店的所有顾客，总体2为郊区商店的所有顾客。 

p = 总体1的均值（市中心商店的所有顾客平均年龄） 

叫=总体2的均值（郊区商店的所有顾客平均年龄） 

两个总体均值之差是 /Xl - 

为了检验 Mi _叫，我们从总体1中抽取 m 个顾客，将其组成简单随机样本，从总体2中抽 
取&个 顾客，将其组成简单随机样本。因为&个顾客和 m 个顾客的简单随机样本都是独立抽取 
的，所以我们将其称为独立 简单随机样本 (independent simple random samples ) 。 


3 ci = Til 个市中心顾客组成的简单随机样本的样本平均年龄 
而= n 2 个郊区中心顾客组成的简单随机样本的样本平均年龄 


因为力是抑的点估计量，石是@的点估计量，所以将两个总体均值之差的点估计量表示 如下: 


两个总体均值2差的点估计麗 


X] -XI 

(10.1) 


可知，总体均值之差的点估计量是两个独立简单随机样本的样本均值之差。图 10.1 是一个基 


于两个独立简单随机样本且用于估计两个总体均值之差的步骤示意图。 

假设从 Greystone 顾客中的两个独立简单随机样本收集来的顾客平均年龄的数据 如下: 


商店 

顾客抽样数 

样本平均年龄 

样本 标准差 

市区 

36 

= 40岁 

si =9岁 

郊区 

49 

无2 = 35岁 

S2 = 10岁 


利用公式 （10. 1)，我们求出两个总体平均年龄之差的点估计量为石 =40- 35 =5岁。因 
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叫-叫=平均年龄之差 

两个独立简单随机样本 



随机样本。 


随机样本。 


无,=市区商店顾客的平 


死=郊区商店顾客的平均 


均年龄 


年龄 

xi - X 2 = fXi - fia 的点估计 


图10, 1两个总体均值之差的估计 

此，我们认为市区商店的顾客平均年龄比郊区大5岁。跟其他点估计量一样，5岁只是两个总体 
平均年龄之差的很多可能的点估计量之一。如果 Greystcme 选择了另一个由36名市区顾客组成的 
简单随机样本和另一个由49名郊区顾客组成的简单随机样本，这两个样本均值之差就可能不等于 
5岁， L - 石的抽样分布就是两个独立简单随机样本所有可能的样本均值之差的概率分布。 


L -石的抽样分布 

我们利用5的抽样分布对单个总体均值进行区间估计，同样，我们也可以利用而的抽样分 
布进行两个总体均值之差的区间估计。 L - 石的抽样分布有以下 性质： 

而的抽转分布 

期望值: E(xi -3c 2 ) = /1i - /Lte 

标准差 ： cru = + 

v n \ m 

式中 < Tx ——总体 1 的标 准差； 

仍 ——总体 2 的标 准差； 

/ II ——总体 1 的简单随机样本的样本 容量； 

他 ——总体2的简单随机样本的样本容量。 

分布 形式： 若两个样本容量都很大 （ m >30 且&為 30) ，则石的抽样分布近似服从正 
态分布。 

图 10. 2描述了石的抽样分布及 h 和石单个分布的关系。 


( 10 . 2 ) 

(10.3) 
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图 10. 2 5,-^2 的抽样分布及 A 和於 单个分布的关系 

现在我们进行对两个总体均值之差的区间估计。我们考虑两种 情况： 一种是样本容量较大的 
情形 U ! 彡30且叱彡30)，另一种是至少有一个样本容量较小的情形 （ m <30 且/或叱<30)。首 
先，我们对大样本情形进行分析。 


的区间 估计： 大样本情形 

在大样本情形下，石的抽样分布可以由正态概率分布来描述。因此，我们用下面的公式 
进行两个总体均值之差的区间 估计： 

两个沄体均埴 Z 基的区间 估计： 穴择本猜形 （ m 多30且11 2 多 30) ,仍和的已知 

X] 一 土 Zq/2^xi ^%2 (10.4) 

式中，1 - a 为置信 系数。 
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用公式 （10, 4) 对两总体之差进行区间估计，就必须预先知道石的抽样分布的标准差的,^ 
的值。而公式 （10.3) 表明，心^的值取决于每个总体的标准差 tn 、 cr 2 的值。当总体标准差未 
知，我们用样本标准差作为总体标准差的估计， 且将仍 估计 如下： 


的点诂计屋 




s -“ = H 

(10.5) 


因此，在大样本情形下，我们可以用❿^的点估计量计算出如下的两个总体均值之差的值的 
新区间 估计： 


两个总体均值2差的置信区间估计 


大符本猜形 （#ii >30且 # i 2 多 30) ,仍、由心、 幻 估计 


X \ 一戈2土 Z < x /7 Sx [ ^ xq 

(10.6) 

式中， 1 -a 是置信系数。 



在对 Greystone 百货公司的研究中，我们可用公式 （10. 6) 来进行两个顾客总体的平均年龄之差 
的置信区间估计。我们回顾一下，36名市区顾客简单随机样本的均值和标准差分别为 h =40岁， 
si =9岁，49名郊区顾客简单随机样本的均值和标准差分别为於= 35岁， S 2 = 10岁。利用公式 
(10.5) 来估计 cm 我们可得 




,(10) 2 

1 36 

49 


= 2. 07 


对于 “2= Z0.025 = 1.96， 由公式 （10.6) 可得下面的95%置信 区间: 

5 ± (1.96)(2.07) 

或 5 ± 4. 06 


因此，在 95% 置信度下， Greystone 两个总体平均年龄之差的区间估计为 0.94 到 9.06 岁之间。 


/ll -/12的区间估计：小样本情形 

我们现在考虑一下，小样本情形即当至少有一个样本容量小于30时，两个总体均值之差的区 
间估计方法，也就是， m <30 且/或71 2 <30。 

在第8章中，我们讲述了小样本情形下单个总体均值的区间估计方法。我们通过回顾知道， 
小样本情形需要总体服从正态分布的假设。假定总体标准差已知，通过标准正态分布 Z 进行区间 
估计。如果用样本标准差 s 来对总体标准差 cr 估计，将通过 t 分布对其进行区间估计。 

在进行小样本的两总体均值之差的区间估计时，我们假设两总体都是正态分布。若假设总体 
标准差仍、 cr 2 已知，那么大样本区间公式 (10.4) 可用于小样本情形。然而，如果总体标准差 
cr ,、 cr 2 被样本标准差&估计，那么用 i 分布对小样本两个总体均值之差进行区间估计。该过 
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程的步骤和举例如下，我们首先作出如下 假设： 

当用 S |、 S 2 估计 CTi 、 <72时，可用 i 分布对小样本的两个总体均值之差进行区间 
估计。 


1. 两个总体服从正态分布。 

2. 两个总体的方差相等 （ cr ?= cr 〗 = <7 2 )。 


当样本容量相等，即使总体方差不等，也能在这部分的步骤中求得可接受的结果 
因此，只要可能，研究者应考虑到的样本容量 m = 


在该假设下，无论样本容量的大小， i 的样本分布为正态分布 。 h 的期望值是 从1 - 
由方差相等的假设，公式 （10. 3) 可写为 

cr ；1 - i ,= J — + — = Ja 2 (— +—) (10.7) 

V rii ri2 y ni rii 

xx 的抽样分布如图 10. 3 所示。 



因为公式 (10.7) 是基于01 = 01=沪的假设，所以我们不需要分别估计 ( 7 ? 和 cri 。 实际上， 
我们可以将两个样本的数据组合，以得到^的最优单个估计。将两个独立简单随机样本的数据结 
合为沪的一个估计量的过程为合并。 cr 2 的合并方差 (pooled variance ) 估计量是两个样本方差4和3 
的加权平均，记为 s 2 。 沪的合并估计量的公式 如下： 
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cr 2 的合并诂计屋 



(m ~ 1 ) 5 ? + (712 一 1)4 
m + n2~2 


( 10 . 8 ) 


o 2 的合并方差估计量是两个样本方差的加权平均，其取值点介于4和 d 之间。 


用 cr 2 的合并估计量/，我们可由公式 （10. 7) 得％-&的估计式 如下: 


当 tr ? = cd = cr 2 时，的点估计屋 



(10,9) 


现在用 t 分布来计算两个总体均值之差的区间估计。总体1的样本有个自由度，总体 
2的样本有71 2 _1个自由度，所有该 t 分布的自由度为 n , + 7 i 2 -2 o 区间估计 如下： 


两个思体均值 Z 差的区间估计 

小狂本猜形 （ 7 ll <30 且/或712<30) , (71、 0*2 由 Si 、 S 2 估计 


X \ — X2 士 1 0^25%, -% 3 

(10.10} 

式中 t 自由度为71〗+ 712 -2 的 t 分布； 


1 -a —— 置信系数。 



下面，我们用 Clearview 国家银行的一次抽样研究来解释区间估计方法。 Clearview 两家支行的 
客户支票账户余额的独立随机样本的资料 如下： 


支行 

Cherry Grove 
Beechmont 


支票账户数 
12 
10 


样本均值余额 

xi = \ 000美兀 
X2 = 920美兀 


样本标准差 
s \ = 150美元 
52 = 120 美元 


我们利用这些数据来推出两家支行平均支票账户余额之差的90%置信区间。假定两个支行的 
支票账户余额都服从正态分布，并且方差相等。利用公式 (10. 8) ，得到总体方差的合并估计值为 


(ill ~ 1 )5? + (712 - 1 )S2 
/ii + /12 - 2 


(11)(150) 2 + (9)(120) 2 
12 + 10 — 2 


= 18 855 


利用公式 （10, 9)，心的相应估计值为 

u = V s2( m + 士 ) = V i8 855( ^ + ^ )=58 - 79 

区间估计方法中 t 分布的自由度为 m + 712 -2 = 12 + 10 -2 =20。对于 o :=0. 10， tan = to. 05 = 
1.725。因此，利用公式 （10. 10), 可以得出区间估计为 
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尤 1 一 欠 2 土 ^0. OSSxi - %i 

1 000 - 920± (1.725)(58.79) 

80 ±101. 41 

在90%置信水平下，两家支行的平均账户余额之差的区间估计为 -21. 41美元至 181. 41美元 
之间。该区间有负值意味着两个均值之差的实际值叫-抑可能为负。因此，抑可能大于这 
意味着，尽管抽样调査资料表明， Cherry Grove 支行有较大的样本均值余额， Beechmont 支行的总 
体均值反而可能更大。置信区间含0的事实可解 释为： 我们没有足够的证据得出两家支行总体平 
均账户余额有差别的结论。 



1. 本节介绍的《分布在小样本方法中的使用是 
基于两个总体都服从正态概率分布且 = 
W 的假设。这种方法是稳健的统计方法，就 
是说它对上述假设相对并不敏感。例如，当 

时，该方法在山、 n 2 比较接近时也 
能得到比较令人满意的结果。 

2. £分布并不局限于小样本情形，只要两个总 


体分布都服从正态分布且总体方差相等，它 
都是可行的。因而，公式 （10. 4) 和 （10. 6) 说 
明了当样本容量较大时，如何确定两总体均 
值之差的区间估计。因此，在大样本情形 
下，没必要使用 z 分布并作相应假设。所 
以， 除了小样本外，我们不使用 f 分布。 



方法 


自测题 


考虑来自两个总体的两个独立随机样本的如下 资料: 


样本1 
ni = 50 
xi = 13. 6 

si = 2. 2 

a . 两个总体均值之差的点估计量是多少？ 

b . 求两个总体均值之差的90%置信区间 £ 

c . 求两个总体均值之差的95% •置 信区间 c 


样本2 

ni = 35 

X2 = 11.6 

S2 = 3. 0 


2. 考虑两个总体的两个独立随机样本的如下数据: 
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样本1 样本2 

叫 =10 ?i2 = 8 

x\ = 22. 5 X 2 = 20. 1 

5| = 2. 5 52 = 2. 0 

a . 两个总体均值之差的点估计量是多少？ 

b . 总体方差的合并估计量是多少？ 

c . 求两个总体均值之差的 95% 置信区间。 

3. 考虑两个总体的两个独立随机样本的如下 数据： 

样本1 样本2 

10 7 8 7 

12 7 8 4 

9 9 6 9 

a . 计算两个样本均值。 

b . 计算两个样本的标准差。 

c . 两个总体均值之差的点估计量是多少？ 

d . 总体方差的合并估计量是多少？ 

e . 求两个总体均值之差的 95% 置信区间。 

应用 

4. 从 1999 年到 2000 年，石油价格有了增长。美国汽车协会提供了关于两年自助式销售的汽油每 
加仑平均价格的资料 （ AA 4 Going Places , May / June , 2000) 。假设以下资料来自全国的独立样本： 

2000年的价格 1999年的价格 

XX =1.58 美元 灸= 0. 98美元 

51 =0. 12美元 52 = 0. 08美元 

ni =50 ni =42 

a . 1999 年到 2000 年中，每加仑的平均价格上升值的点估计量是多少？ 

b . 求 1999 年到 2000 年中，每加仑的平均价格上升值的 95% 置信区间估计是多少？ 

5. 美国交通部收集的数据列举了 75 个最大城市的居民每天每辆汽车的行驶里程数。假定 50 个布 
法罗居民构成的样本平均值为 22.5 英里 / 天，标准差为 8. 4 英里 / 天的简单随机样本。另外 ，一 
个与之独立的 100 位波士顿居民构成的平均值为 18.6 英里 / 天，标准差为 7.4 英里 / 天的简单 
随机样本。 

a . 布法罗和波士顿居民平均每天行驶里程数之差的点估计量是多少？ 

b . 求两个总体均值之差的 95% 置信区间。 
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6. 国际航空运输协会对一些公务旅行者进行了调查以确定不同的国际机场的受欢迎程度。满分为 

10分。假设，有50名公务旅行者给迈阿密机场打分，另外有50名公务旅行者给洛 
杉巩机场打分。得分如下： 

迈阿密 

CD 光盘数据 



Airport 


6468776338 10 48 
7875958438 5 5 4 


4484562599 8 4 8 

9959783 10 89 6 


洛杉矶 

10 9678798 10 7657 

35687 10 84 7 8 6 9 9 

5 3 1 8 9 6 8 5 4 6 10 9 8 

327953 10 3 5 10 8 

求迈阿密和洛杉矶机场平均的分之差的95%置信区间。 


7. 科隆大学对男女工资差别的研究指出，男士工资高于女士工资的原因之一是男士比女士有更多 
年的工作经验 （Business Week , August 28, 2000)。假设如下的摘要样本表现了每组的工作年数： 

男士 女士 

XI =14, 9年 而 = 10. 3年 

& = 5. 2年 & = 3. 8年 

rii = 100 ni = 85 

a . 求两个总体均值之差的点估计量。 

b . 在95%置信度下，误差范围有多大？ 

c . 求两个总体均值之差的95%置信区间估计。 


8. 某城市规划小组想估算某大城市相邻两个地区平均收入之差，这两个地区家庭的独立 

随机样本的资料 如下： 

自测题 


地区1 

ni = 8 

xi =15 700美元 
si =700美元 


地区2 

U2 = 12 

xi = 14 500美元 
52 = 850美元 


a . 对两个相邻地区平均收入之差进行点估计。 

b. 对两个相邻地区平均收入之差进行 95% 置信区间估计。 

c . 在 ( b ) 中进行区间估计需作什么假设？ 

9. 国家房屋建设者协会提供了有关最流行的家庭装修业务的数据（£/&4 7 1 0 而 7 ，加 11 6 17 ， 1997 )。有 
关两种装修业务以千美元为单位计算的开支的样本数据 如下： 
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厨房 

主卧室 

25,2 

18.0 

17.4 

22.9 

22.8 

26.4 

21.9 

24.8 

19.7 

26.9 

23.0 

17.8 

19.7 

24.6 

16,9 

21.0 

21.8 


23.6 



a . 求两种装修业务总体平均装修开支之差的点估计量。 

b . 求两个总体均值之差的90%的置信区间。 


10 . 



CD 光盘数据 
Union 


假设抽取15名女性工会会员和20名女性非工会会员的独立随机样本，以下是她们每 
小时的工 资数： 

工会会员 


22. 40 18.90 

16. 50 18. 50 

非工会会员 

16. 70 

19. 80 

14.05 

17.00 

16. 20 

14.30 

20.00 

17.20 

16. 10 

16, 30 

19. 10 

17.60 

14.40 

16.60 

15.00 

17.65 

15.00 

17. 55 

13.30 

11.20 

15.90 

19.20 

11.85 

16. 65 

15.20 

15.30 

17.00 

15. 10 

14. 30 


13.90 14. 50 


a . 求两个总体小时工资数之差的点估计量。 

b . 求总体方差的合并估计量。 

c . 求两个总体均值之差的95%置信区间。 

d . 这两个总体平均工资有差异吗？试解释。 


10.2 两个总体均值之差的假设检 验：独 立样本 


在这一节中，我们将介绍检验有关两个总体均值之差的假设方法。该方法仍分为大样本 
(叫多30， 叱多 30) 和小样本 Ui <30/ 且/或 n 2 <30) 两种情形。 


大样本情形 

对两个培训中心教育质量差异进行研究，对两个中心学员进行一次标准化考试。考试分数是 
评价两个中心的教学质量差异的主要因素。两个中心的平均值 如下： 


州=中心 A 学员总体的平均分 
叫：=中心 B 学员总体的平均分 


第 10 章两个总体均值和比例的统计推断 427 


我们从一个尝试性的假设开始讨论，假设两个中心的培训质量没有差异。于是，从平均分的 
角度来讲，原假设是&-@ = 0。如果抽样证据导致拒绝该假设，我们就能得出两个总体平均分 
有差异的结论。该结论表明，两个中心的教学质量有差异，继而，有可能批准某项研究以调查产 
生这种差异的原因。原假设及备择假设 如下： 


Ho ： fJi\ - (Jbi-0 
H a ： fJLi ~ fJbi 9^0 

按照第 9 章的假设检验方法，我们认为尝试性假设肌为真。利用样本均值之差作为总体均 
值之差的点估计量，并且考虑 //o 为真时的而的抽样分布。对于大样本情形，该分布如图 10.4 
所示，由于 i - 石的抽样分布可以由正态分布来逼近，因此,可以用下面的检验统计量： 


^ __ (无1 -沄 2) - （Mi - / ig ) 
yjcrVm + crl/m 


( 10 . 11 } 


若 0*2 未知，我们可用抽样标准差^来计算检验统计量。 




Ho ： Mi - Ate =0成立时取0 


图 10. 4 Ho ： 时的抽样分布 



公式 （10. 11) 给出的 z 值可解释为与中叫-抑的标准化偏差。对于«=0. 05,此时 
“2=^0.025 = 1.96，双侧检验的拒绝域如图 10. 5所示。利用检验统计量，拒绝规则为 

如果 Z 〈- 1.96 或 z > + 1.96, 则拒绝 ft ) 

假设两个中心学员的独立随机样本所得考分由表 10.1 给出，汇总统计由表 10. 2给出。利用 
&、^估计仍、（7 2 ,我们求得关于原假设 // Q : 叫-抑=0的假设统计量 Z 为 

. 一— m,Jz.23)-Q. 9 00 

V (8 ) 2 /30 +(10) 2 /40 ■ 
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图 10. 5 a = 0. 05时双侧假设检验的拒绝域 


因为 z =2. 09>1.96,我们得出拒绝执的结论。于是，我们推论叫、叫不相等，即两个中心 
的教学质量有 差异。 


表 10. 1 考试分数 



CD 光盘数据 
ExamData 


培训中心 A 培训中心 B 


97 

83 

91 

64 

66 

91 

84 

90 

84 

87 

85 

83 

78 

85 

94 

76 

73 

72 

74 

87 

85 

79 

82 

92 

64 

70 

93 

84 

78 

85 

64 

74 

82 

89 

59 

87 

85 

74 

93 

82 

79 

62 

83 

91 

88 

70 

75 

84 

91 

89 

72 

88 

79 

78 

65 

83 

76 

86 

74 

79 

99 

78 

80 

84 

70 

73 

75 

57 

66 

76 


表 10. 2 考试分数汇总结果 

培训中心 A 培训中心 B 


Ml : 

= 30 

W 2 = 

= 40 

无 1 = 

= 82.5 

302 : 

= 78 

5!= 

= 8 

52 : 

=10 


对于 z =2.09, 可用标准正态概率分布表计算该双侧检验的 p - 值。因为均值与 z =2.09 之 
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间的面积是0.4817， p - 值为 2 x (0.500 0-0. 481 7)=0.0366，因而该 p - 值小于 a =0. 05，由 
p 一 值法也能得出拒绝 i /。 结论。 


P -值也可用于假设检验。 


在这个假设检验中，我们感兴趣的是确定两个总体均值是否有差异。由于我们事先不知道哪 
个均值更大或更小，故采用假设 ft ): fM -蝌=0与队 :在有关两个总体均值之差的 
其他假设检验中，我们可能找出一个均值比另一个均值是大还是小？在这些情形下，单侧假设会 
更适合。有关两个总体均值之差的单侧检验的两种形式 如下： 

Ho : /Xa -/ X2 矣 0 Ho : fjbi — 

Ha ： fjb\ - fJa>0 Ha ： /tl - /X2 <0 

这些假设可用公式 （10. 11) 给出的检验统计量 Z 来检验。拒绝域可以仿造第9章介绍的单侧检 
验得出。 

小样本情形 

我们现在考虑，在小样本情形下，有关两个总体均值之差的假设检验，即 m <30 且/或 n 2 < 
30。我们使用的方法是基于自由度为；1 1 + /1 2 -2的/分布，就如在 10. 1节中讨论的那样，假设两 
个总体都服从正态分布且总体方差相等。 

我们用一个例子来说明小样本情形，该例子涉及到一个计算机软件包，它是为协助系统分析 
员节约对信息系统设计、开发所需时间而开发的。为评价新软件包的优点，我们抽取由24名系 
统分析员组成的随机样本。给每位系统分析员一张信息系统的说明书。指定其中12名分析员 
使用当前技术开发的信息系统，另外12名分析员先接受新软件包的培训，然后用新软件包来 
开发该信息系统。 

在本研究中有两个 总体： 使用当前技术的系统分析员总体和使用新软件包的系统分析员总 
体。从完成该信息系统设计项目所需时间的角度来看，总体均值 如下： 

^ 二使用 当前技术的系统分析员平均项目完成时间 
使用新软件包的系统分析员平均项目完成时间 

新软件项目的研究人员希望证明新软件包使的平均项目完成时间缩短。因此，研究人员要寻 
找证据来推断叫小于叫。此时，两个总体均值之差川-叫>0。将研究假设叫-沖>0作为备择 
假设提出： 


Ho : fJb \ — //e ^ 0 
H a ： fi\ - jjui>0 

研究人员要寻找到拒绝//。的证据，才能得出新软件包能使平均完成时间缩短的结论 
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假设24名分析员完成工作后得到表 10.3 所示资料。在总体方差相等的假设下，用公式 
(10.8) 来计算的/合并估计值 、 

, ( m-Dsl + ^- l)si __ llx (40) 2 + llx (44) 2 , 

5 " ru+n2-2 _ 12 + 12-2 ~ ，W 

小样本情形的检验统计量为 


(芡1 一元 2) - （从1 一说） 




1 _u 1 、 

n\ m y 


( 10 . 12 ) 


在两独立随机样本容量为叫、打2时，《分布的自由度为 rii + U 2-2 0 对于 a =0.05， 由《分 
布表可知自由度12 + 12-2=22， io . o5 = 1.717 0 因而，利用检验统计量值，单侧检验拒绝域为 


若 t >1.111 , 则拒绝讯 


表 10. 3 软件包检验研究中的完成时间数据与汇总统计 



CD 光盘数据 


Software 



当前技术 

新软件包 


300 

276 


280 

222 


344 

310 


385 

338 


372 

200 


360 

302 


288 

317 


321 

260 


376 

320 


290 

312 


301 

334 

汇总统计 

283 

265 

样本容量 

R \ = 12 

rii - 12 

样本均值 

%k - 325 

x 2 = 288 

样本标准差 

5 i =40 

52 = 44 


由样本数据及公式 （10. 12) 可知检验统计量的值 如下: 


(325 -288) -0 



= 2. 16 


观察拒绝域，我们可以看到当 t = 2. 16,显著性水平为 0.05 时，拒绝讯。因此，抽样资料使研 
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究者得出叫-抑>0的结论，也就是新软件包使的项目.平均完成时间缩短。 

我们可用 Minitab 来检验关于两个总体均值之差的检验。比较当前技术和新软件包技术的输出 
结果如图 10.6 所示。输出结果的最后一行显示出 t = 2. 16和 />- 值=0.021。对于 q :=0.05， 原 
假设被拒绝。因此，新软件包的平均完成时间比当前技术要短。 


Two sample T for Current vs New 

N Mean StDev 

Current 12 325.0 40.0 

New 12 288.0 44.0 

Difference = mu Current - mu New 
Estimate for difference ： 37.0 
T-Test of difference = 0 (vs >) : T = 2.16 P-value = 0.021 DF = 22 
Both use Pooled StDev = 42.0 


图 10. 6 Minitab 关于当前技术和新软件技术的假设检验输出结果 


SE Mean 
12 
13 



1. 我们在上一节中指出，对于正态总体及等方 
差的假设，利用 t 分布进行关于两个总体均 
值的推断是不太敏感的。但是，如果读者认 
为在某些特殊应用场合，这些假设不合适， 
可采取下列方法 之一： 

a . 考虑用第19章介绍的非参数维尔克科森 
秩检验。 

b . 如果是方差不相等的总体近似 
正态分布，利用公式 （10.5) 估算 

仍可用 f 分布，其自由度由下式 

给出： 


2. 在有关两个总体均值之差的假设检验中，原 
假设中几乎总有均值是无差异的情况。这 
样，下列原假设可供 选择： 


Ho: 

/xi - 

-Ate = 0 

Ho ： 

Mi - 

- fJbi ^0 

Ho ： 

Mi - 

- fJbi ^ 0 


在某些例子中，我们可能要确定总体均值 
之间是否存在非零差距 D 。。 特定值 Do 的 
选择依赖所研究的应用情况。然而，在这 
种情形，原假设可以下列形式提出 •_ 


[1/m + ( sVsi )/ m] 2 


L n 2 \{n\ - 1) 


_UVsDL] 

L nl(n2 一 1) ■ 


c . 把两个样本容量增加到且^^30 
的大样本情形。 


Ho ： 

柃 - 

-JJbZ = Do 

Ho ： 

州 - 

- Dq 

Ho: 

州 - 

- \isi ^ Do 


除了公式 （10. 11) 和公式 （10. 12) 中的/ X ,-/ X 2 
的计算用 Z )。 之外，其余计算完全相同。 
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方法 

11. 考虑下面的假设 检验： 

Ho ： fx \ - 
Ha ： fJbi- fM>0 

下面是取自两个总体的两个独立样本资料。 

样本2 
712 = 50 

X2 = 22 . 8 
«2 = 6. 0 

a . 取 a = 0. 05,进行假设检验并给出结论。 

b . /) -值是多少？ 

12. 考虑下面的假设 检验： 


样本1 
7ii =40 
3ci=25.2 
si = 5,2 


7 . 

1 - 

自测题 


Ho ： fjbl - fM=0 
Ha l f^\ — JuUl^O 

下面是取自两个总体的两个独立样本 资料： 


样本2 

712=70 
X2 = 106 
52 = 7. 6 

a . 取 a =0.05， 进行假设检验并给出结论。 

b . p -值是多少？ 

13. 考虑下面的假设 检验： 


样本1 

Tii = 80 

无 1 = 104 
•si = 8. 4 


Ho ： /JL\ - /JLa-0 
H u ： fJL\ - fJLa9^0 


下面是取自两个总体的两个独立样本资料。取 a =0.05， 进行假设检验并给出结论。 
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样本 1 

样本 2 

ni = 8 

712=1 

^1 = 1.4 

元 2 = 1 . 0 

si = 0. 4 

S2 = 0. 6 


应用 


14. 美国沿海地区如 Cape Cod ， the Outer Banks , the Carolinas 以及 the Gulf Coast , 自 20 世纪 90 年 
代以来有很高的人口增长率。对全囯范围内居住在沿海地区和非沿海地区的居民进行收集整 
理数据 July 21, 2000), 假设下列样本取自两个总体中的个人的 年龄： 

沿海地区 非沿海地区 

心 =39.3 岁 私 = 35.4 岁 

si = 16. 8 岁 & = 15. 2 岁 

m = 150 ni = 175 

对这两个总体的平均年龄无差别进行检验。利用0： = 0.05。 

a . 用公式表示原假设和备择假设。 

b . 拒绝规则是什么？ 

c . 检验统计量值是多少？ 

d . 得出你的结论。 

e . p -值是多少？ 

15. 在 10. 1节中对 Greystone 百货公司的研究，有两个商场地区独立随机样本的顾客年龄 


数据 如下： 



自测题 

市中心商店 

郊区商店 


ni = 36 

U2 = 49 


A =40 岁 

玉 2 = 35 岁 


si = 9 岁 

S2 = 10 岁 


对于 a =0.05， 检验 //g: jiti - 抑=0和备择假设 // a : /jli - / jq ^ Oo 你对这两个商店顾客 
总体的平均年龄有何结论？ p - 值是多少？ 

16. 教育考试中心进行了一次有关学术潜质测试中男女考生差异的研究。研究选择了在数学考试 
中取得同样分数的562个女生及852个男生。也就是说，可以认为这些考生具有同样的数学 
能力。两个样本的 SAT 词汇部分的得分如下： 


女生 
L =547 
si = 83 


男生 

x 2 = 525 
S2 = 78 




434 商务与经济统计 


这些数据是支持这样一个结论——给定具有同样数学能力的一个女考生总体和一个男考生 
总体，女考生的词汇能力明显高于男生？在显著性水平为 0.02 下，进行假设检验。得出你的 
结论？ 

17. 某公司研究两家原材料供应商的送货时间。该公司对供应商 A 基本满意，如果其平均送货时 
间等于或小于供应商 B , 则该公司将继续选择供应商 A 。 但若公司发现 B 的平均送货时间小 
于 A ， 则从 B 处购买原材料。 

a . 这种情况下，原假设和备择假设分别是什么？ 

b . 假设独立样本给出了两个供应商的送货时间，数据 如下： 

供应商 A 供应商 B 

TU =50 1%2 = 30 

元 1 = 14 天 元 2 = 12. 5 天 

si = 3 天 S 2 = 2 天 

若 a =0.05, 你对 （ a ) 中的假设有何结论？你对选择供应商的建议如何？ 

18. Arnold Palmer 和 Tiger Woods 是本项运动中的两位最出色的打高尔夫球的人。如果两个都在最 
隹状态下，他们如何相比？下面的样本数据给出了在 PGA 锦标赛中18洞的比赛结果 。 Palmer 
的分数取自 1960年，而 Woods 的分数取自 1999年 （ Go // Magazine , February 2000) 0 

Palmer, 1960 年 Woods , 1999 年 

xx =69. 95 x 2 = 69. 56 

ni = 112 U2 = 84 

利用样本结果对两人 18 洞的平均分数总体无差别假设检验。 

a . 假设两人18洞的平均分数都有 2.5 的总体标准差，检验统计量值是多少？ 

b . /)- 值是多少？ 

c . 取 a = 0. 01,你的结论是什么？ 

19. 一些航空公司的互联网上报道，飞机着陆平均时间通常为 2— 3分钟 （6^4 Today , September 
11,2000)。三角航空公司和西北航空公司飞机平均着陆时间的样本数据 如下： 

三角 西北 

元1 = 2. 5分 元2 = 2. 1分 

si = 0. 8分 & = 1. 1 分 

Tl\ =22 TL2 = 20 

a . 若检验目的是检验一个相当两航空公司的飞机平均着陆时间有差异，请你建立假设‘ 

b . 若 a =0. 05,你的拒绝规则是什么？ 

c . 计算检验统计量值。/ 

d . 得出你的结论？ 

e . 你对值有何评价？ 
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20. 美林公司定期地邀请顾客来评估其财务顾问的服务 (2000 美林 Client Satisfaction Survey ) 。在顾 
客满意度调查中，级别高表明服务越高。两个财务顾问的服务级别独立样本数据如下。财务 
顾问 A 有10年的经验，而财务顾问 B 只有1年的经验。若 o : = 0.05， 是否工作经验多的顾问 
会提供更高的服务级别？ 


顾问 A 

顾问 B 

1 = 6. 82 

X2 = 6. 25 

= 0. 64 

S2 =0. 75 

! = 16 

n2 = 10 


a . 建立原假设和备择假设。 

b . 你的拒绝规则是什么？ 

c . 计算检验统计量值。 

d . 得出你的结论？ 

e . 你对 p - 值有何评价？ 


10.3 两个总体均值之差的统计 推断： 匹配样本 

假设一家生产公司有两种方案供工人完成生产任务。为了使产出最大化，公司想确认哪种方 
法有最短完成时间。以&记生产方法1的平均完成时间，~记生产方法2的平均完成时间。因 
为没有哪种生产方法更好的先验，我们从两种生产方法具有相同平均完成时间的尝试性假设开 
始。因此，原假设为执：若该假设被拒绝，我们可得出平均完成时间不同。这种情 
形下，应采用那个完成时间较短的方案。原假设与备择假设 如下： 

Ho: /Ai - /^2 = 0 

Hal fJi\ - /^ 2#0 

在进行收集生产时间数据以及假设检验的抽样步骤时，我们考虑使用两种可供选择的方案。 
一种是基于独 立样本 (independent samples ) 的，另一种是基于匹 配样本 (matched samples ) 的。 

1 , 独立样本 方案： 抽取工人的一个简单随机样本，其中每个工人使用方法 1 ; 抽取工人的另 
一个简单随机样本，其中每个工人使用方法2。均值差的检验用 10. 2节介绍的方法。 

2. 匹配样本 方案： 抽取工人的一个简单随机样本，每个工人先使用一种方法，后用另一种方 
法。两种方法的次序是随机排列的，某些工人先执行方法1，其他工人先执行方法2。 
每个工人提供一组数据，一个是方法1的，另一个是方法2的。 

在匹配样本方案中，两种生产方法是在相同条件下接受检验的（即由同一工人执 行）; 所以，该 
方案会比独立样本方案产生更小的误差。这主要是因为在匹配样本方案中，作为抽样误差来源之 
一的工人个体之间没有差别。 

假设在匹配样本方案中，检验两种方法之间的差异，我们对这种抽样方案来进行分析。有 
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一个由6个工人组成的一个随机样本，6个工人完成时间的数据由表 10.4 给出。注意每个工人提 
供一对有效数据，每种方法一个，最后一列为样本中每个工人完成时间之差 A 。 


样本均值和样本标准差的公式中的下标 d 是用于提示该数据体现了匹配样本数据值 
之差的差值。除此之外，样本均值与标准差的公式与上文中的一致。 

分配匹配样本方案的关键在于，我们仅考虑差值这一列。因此，我们由6个数据值(0.6， - 
0.2, 0.5, 0.3, 0.0 及 0.6) 用来分析两生产方法均值之差。 

令叫=两工人总体差值的平均值。原假设和备择假设可写为 


Ho ： /ju=0 
H a ： fJu^O 

若％被拒绝，我们可得出平均完成时间有差异。 

下标 d 是提示匹配样本提供差值数据。表 10.4 中，6个差值的样本均值与样本标准差 如下: 



L8 

~6~ 


= 0. 


30 



^/0. 56 


= 0.335 


表 10. 4 匹配样本方案的任务完成时间 



CD 光盘数据 
Matched 


工人 

方法1的完成时间（分钟） 

方法2的完成时间（分 钟） 

完成时间的差值 （ A ) 

1 

6.0 

5.4 

0.6 

2 

5.0 

5.2 

-0,2 

3 

7.0 

6.5 

0.5 

4 

6.2 

5.9 

0.3 

5 

6.0 

6.0 

0.0 

6 

6.4 

5.8 

0.6 


在第9章中，我们曾指出，如果假定总体分布服从正态分布，则可使用自由度为 n -1 的 t 
分布来检验有关总体均值的原假设。假定表示差值的数据服从正态分布，检验统计量为 

t = ---^ (10.13) 

SdAj n 

若 a =0.05， 自由度为； i-l =5 ( to .025 ^ 2 . 571), 那么双侧检验拒绝规则为 

若/< - 2. 571 或^ > 2. 571，则拒绝讯 

对于3 = 0.30，〜 = 0.335 和 n = 6, 原假设检验统计量的值为 






若 //。： 叫=0, 
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t = ^ 30 - 0 = 2 20 

s d / f ^ 0.335/ 沉 

所以 i = 2. 20不在拒绝域中，样本数据没提供足够数据拒绝历。 

自由度为5， i 分布表中指出了 i =2. 20是介于以。 25 =2. 571和 i 。. 。 25 =2. 015之间。因此，与 
t =2. 20相关的单侧域在 0.025 到 0.05 之间。对于双侧检验，我们知道 p - 值在 0. 05和 0. 10之 
间。因为此值大于 a =0. 05, //。没被拒绝。利用 Minitab 和表1014中的数据表示 p -值二 
0.08。 

计算出差值数据后，匹配样本中的 i 分布方法与第8章及第9章中介绍的一个总体 
情形相同。 



此外，我们可通过第8章中单个总量的方法得到两个总体均值差的区间估计。计算 如下: 


d ± ta /2 


yTri 


0. 3±2. 571( 


0 . 335 

~w 


0. 3 ± 0. 35 


因此，两种生产方法均值差的95%置信区间估计为 -0.05 到 0.65 分钟。注意到置信区间含 
有零值，所以样本数据没有提供足够证据拒绝讯。 



1. 在本节例子中，工人先用一种方法再用另一 
种方法来完成任务。本章介绍了一个匹配样 
本方案，其中每个样本个体提供了一对数 
据。也可用不同但“相似”的样本个体来提 
供一对数据值。例如，一个地方的工人可与 
另一个地方的工人相匹配（其年龄、受教育 
情况、性别、经验等方面相似）。每对工人可能 
提供用于匹配样本分析的不同数据。 

2. 对于两个总体均值的推断，匹配样本方法通 


常对独立样本方法更精确，因此，前者便被 
推荐者使用。然而在某些应用中可能无法匹 
配，或者，可能时间和费用成本太高。这 
时，应采用独立样本方案。 

3. 本章中的例子样本容量为6个工人，属于小 
样本情形。假设检验和区间估计中都采用了 
艺分布。若样本容量较大（几>30)，就不必 
要使用 i 分布。这时，统计推断可基于标准 
正态概率分布的 Z 值。 
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方法 



咖:: 

自测题 


考虑下面的假设 检验： 

Ho: IMi^O 
H a ： jju>0 

下面是来自两个总体的匹配样本 数据： 


总体 


个体 

1 

2 

1 

21 

20 

2 

28 

26 

3 

18 

18 

4 

20 

20 

5 

26 

24 


a . 计算每对个体的差值。 

b . 计算3。 

C. 计算标准差 〜 O 

d . 取 o : = 0.05 进行假设检验，得出你的结论? 


22. 下面是取自两个总体的匹配样本 数据: 

个体 

1 

2 

3 

4 

5 

6 
7 


11 

7 

9 

12 

13 

15 

15 


总体 

2 

8 

8 

6 

7 

10 

15 

14 


a / 计算每对个体的差值 o 
b . 计算3。 

. 计算标准差 


c 
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d . 对两总体均值之差进行假设检验，得出你的结论。 

e . 给出两个总体均值之差的95%置信区间。 


应用 


23. 一个市场研究的机构通过一组被调查者的榉本来给某特定商品的潜在购买力打分。在 

样本中，每个人都在看了该产品的电视广告之前和之后分别打分。潜在购买力的分值 

自测题 

为 0—10 分，分值越高表示潜在购买力越高。原假 设为： “看后”平均得分小于或等 
于“看前”得分。拒绝该假设表明广告提高了平均潜在购买力得分。对于 a =0.05, 
用下列数据进行假设检验，并对广告给予评价。 


购买力得分 购买力得分 


个人 

之后 

之前 

个人 

之后 

之前 

1 

6 

5 

5 

3 

5 

2 

6 

4 

6 

9 

8 

3 

7 

7 

7 

7 

5 

4 

4 

3 

8 

6 

6 


24. 下面是10个国际长途的一个样本，给出了来自美国的 the Sprint and WorldCom 每分钟的电话 
费 （ World Traveler, July 2000) 0 


国家或地区 

Sprint 

Worldcom 

澳 大利亚 

0. 46 

0. 26 

比利时 

0. 69 

0.40 

巴西 

0. 92 

0.53 

哥伦比亚 

0.55 

0. 53 

丹麦 

0.50 

0. 26 

法国 

0.46 

0.26 

德国 

0. 46 

0.26 

香港 

0. 92 

0.40 

日本 

0. 69 

0.40 

英国 

0.46 

0.26 


得出两个总体均值之差的95%置信区间估计。 

25. 从机场到市中心的交通费用取决于交通工具。下面给出了 10个大城市的出租车和班车的单程 
费用。求因坐出租车而引起的平均费用上升的95%置信区间。 

城市 出租车（美元）班车（美元） 城市 出租车（美 元） 班车（美 元） 

亚特兰大 15.00 7.00 明尼阿波利斯 16.50 7.50 

芝加哥 22.00 12,50 新奥尔良 18.00 7.00 
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城市 

出租车（美 元） 

班车（美元> 

城市 

出租车（美 元） 

(续表） 

班车（美 元) 

丹佛 

11.00 

5.00 

纽约 （ LaGuardia ) 

16.00 

8,50 

休斯敦 

15.00 

4.50 

费城 

20.00 

8. 00 

洛杉矶 

26.00 

11.00 

华盛顿 

10.00 

5.00 


26. 对于 8 个主要机场选取的出租车每加仑的汽油价格， Hertz 公司和国家出租车提供的数据如下 
(USA Today April 4,2000 ) : 


机场 

公司 

国家公司 

波士顿 ( Logan ) 

1.55 

1.56 

芝加哥 ( O ’ Hare ) 

1.62 

1.59 

洛杉矶 

1.72 

1. 78 

迈阿密 

1.65 

1.49 

纽约 （ JFK ) 

1.72 

1.51 

纽约 （ LaGuardia ) 

1.67 

1.50 

奥 兰治县 ' 

1.68 

1.77 

华盛顿 （ Dulles ) 

1. 52 

1.41 


若 a=0. 05, 检验两公司每加仑油价的总体均值相等的假设。 


27. 



CD 光盘数据 


Book-of-the-Month-Club 对其会员做了 一次调查，用于确定其会员花在看电视上的时间 
是否比花在看书上时间多。假设 15 个回答者组成的样本给出了以下关于每周看电视和 
读书的小时数的数据。对显著性水平 0.05, 你能得出的该俱乐部会员用于看电视的时 
间比看书时间多的结论吗？ 


TV Read 


回答者 

看电视 

读书 

回答者 

看电视 

读书 

1 

10 

6 

9 

4 

7 

2 

14 

16 

10 

8 

8 

3 

16 

8 

11 

16 

5 

4 

18 

10 

12 

5 

10 

5 

15 

10 

13 

8 

3 

6 

14 

8 

14 

19 

10 

7 

10 

14 

15 

11 

6 

8 

12 

14 





28. 



CD 光盘数据 


PERatio 


下面是有关 12 种邮票组成的样本的 1997 年市盈率和估计的 1998 年市盈率的资料 
( Kiplinger 7 s Personal Finance Magazine , November 1997): 


股票 

1997年市盈率 

估计的1998年市盈率 

可口可乐 

40 

32 

沃特_迪斯尼 

33 

23 
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(续表） 


股票 

1997 年市盈率 

估计的 1998 年1 

杜邦 

24 

16 

柯达 

21 

13 

通用电气 

30 

23 

通用汽车 

25 

19 

IBM 

19 

14 

默克制药 

29 

21 

麦当劳 

20 

17 

摩托罗拉 

35 

20 

飞利浦 

17 

13 

惠普 

20 

17 


a . 对 a =0.05， 检验平均市盈率在2年中是否有变化？ 

b . 给出总体平均市盈率在2年内变化的95%置信区间。 


29. 一厂家生产豪华型和普通型的家用自动磨砂机，零售商提供的销售价格的样本 如下: 



价格 

(美元) 


价格 

(美元) 

零售商 

豪华型 

标准型 

零售商 

豪华型 

标准型 

1 

39 

27 

5 

40 

30 

2 

39 

28 

6 

39 

34 

3 

45 

35 

7 

35 

29 

4 

38 

30 





a . 厂商建议的两种型号的零售价有10美元的差价，利用显著性水平为0.05,检验两种型号 
的平均差价是10美元。 

b . 两种型号平均差价的95%置信区间是多少？ 


10.4 两个总体比例之差的统计推断 

一税收机构想比较两家地区办事处的工作质量，随机抽取每个办事处的纳税申报单作为样 
本，并且想确认其中哪些是正确的，该机构可以通过估计每个办事处错误申报的比例，计算两者 
比例之差。 

= 总体 i ( 办事处 1) 的错误申报单的比例。 

=总体 2( 办事处 2) 的错误申报单的比例。 

内=来自总体1的简单随机样本的样本比例。 

戸 2 =来自总体2的简单随机样本的样本比例。 

/>, - P 2 给出两个总体比例的差值，0 - %的点估计量 如下： 
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两个总体比例差的点估计體 





(10.14) 


因此，两个总体比例之差的点估计量为两独立简单随机样本的样本比例之差。 


a 的抽样分布 

在两个总体比例差的研究中，巧-巧是我们感兴趣的点估计量。我们在以往的例子中看到， 
点估计量的抽样分布是进行的待估参数区间估计和假设检验的关键因素。斤抽样分布的性质 
如下： 

的抽祥分布 

期 望值： E(pi - pi ) = pi - P 2 (10.15) 

标 准差： a P 、- h = (10.16) 

v n \ ni 

式中 m ——来自总体 1 的简单随机样本的样本容量； 

n 2 ——来自总体2的简单随机样本的样本容量。 

分布形式：若样本容量较大即 ni /? i N m ( l - pi )、 n 2/?2 和 / i 2 (l - p 2) 都大于或等于5， pi - pi 
的抽样分布可由正态概率分布来逼近。 


斤-巧的抽样分布如图 10. 7所示。 



图 10 . 7 pi -pi 的抽样分布 
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P 1 - P 2 的区间估计 

我们假定两个办事处纳税申报单的独立简单随机样本提供以下 信息： 

办事处7 办事处2 

m = 250 7 i 2 = 300 

错误申报数=35 错误申报数=27 

两个办事处的样本比例 如下： 

14 

^| 0.09 

两个总体错误申报比例之差的点估计量为巧-尹 2 = 0. 14-0.09=0.05。因此，我们估计办事处 
1的错误率比办事处2多 0. 05或5%。 

为推导两个总体之差的置信区间，我们需要如公式 （10. 16) 所示的的估计。然而，由于 
两个总体比例 Pl 、 p 2 未知，不能直接用公式 （10. 16), 此时，可用样本比例 斤估计 Pl , 巧估计 
Ply 于是得到％的点估计量 如下： 

ova 的点诂计屋 

do.17) 

V m ni 


利用公式 （10.17) ，下列表达式给出了两个总体比例差的一个置信区间估计，因为当样本容 
量较大时，内-斤的抽样分布可由正态分布逼近，所以公式中使用了 Za/2o 


两个总体比例 Z 差的区间 估计： 

大择本猜形 叫 A 、 m (\ - pi) x 

ri 2 pi Si ni (1— p 2) ^ 5 0 

式中， 1 -a 是置信系数。 

Pi 一 Pi i Za /2 5 pi -/h 

( 10 . 18 ) 


用公式 （10. 17)，我们有 



10 . 14(0. 86) 
V 250 ^ 


0,09(0,91) 

300 


= 0. 027 5 


在90%置信区间下， z „/2= Zo . o 5 = 1.645, 由公式 （10. 18) 得出区间估计 如下: 

(0. 14-0.09) ±1.645 (0. 027 5) 

0. 05 ± 0. 045 


因此，两个总体有错误率之差的90%置信区间为 0. 005—0. 095。 
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关于^ _ P 2 的假设检验 

考虑上例中的数据，作为有关两个总体比例差的假设检验的一个例子，并假设该机构试图确 
定两个办事处的有错误比例不同。我们通过检验下面的假设来介绍这种 方法： 


Ho : p \ - pi -0 

Ha ： pi - P 2 7^0 

在两个总体均值之差相同（即 p ,- p 2 = 0) 的假设下， A _和的抽样分布如图 10. 8所示。因抽样 
分布类似正态分布，两个总体比例之差的检验统计量可写为 


(Pl - 万 2) - （Pi 一 P2) 

Z =-- 

对 Q ： =0. 10和 Za/2 = Zo .05 = 1. 645，拒绝规则为 

如果 z <-1.645 或 z >1.645， 则拒绝讯 


(10.19) 



当执： P , - p 2 = 0 成立时取0 


图 10. 8 Ho ： Pi-P2=0 下，内-內的抽样分布 

公式 （10. 19) 中的 z 的计算要用到两比例之差的标准差的值因为该标准差未知，必须 
用样本数据来估计。类似于区间估计的步骤，我们可以尝试在公式 （10. 18) 中用斤和办。但在假设 
检验中，我们往往将公式 （10.18) 修正为略显不同的形式。在假设比例之差无差异的特殊情形 
(SP Ho ： a - pfO 或讯： p ,- p 2 彡0或//。： p , -/> 2 ^ 0 ),修正公式 （10. 18) 是为了反映以下事 
实: 当我们假设//。中等号成立，相当于假设0 = 0。出现这种情形时，我们组合或合并两样本- 
比例得到一个估计即合并估计量(记为@)。 



第 10 章两个总体均值和比例的统计推断 445 

在有关 // o 为 pi - jP 2=0 或 // o : pi - /)2$0或丑。： pi - P 2>0 的假设检验中，0意味 
着两个总体的比例 Pi 、 /?2将无差异。在这种情况下，应该将两个样本比例@1、@2组合， 

得到总体比例的一个估计，见公式 （10.20)。 可按公式 （10.21) 计算私 - Pi 。 


两个总体比例的合并估计可写为 


一 _ n{p\ + n^i 
p - ni + n 2 


将公式 （10. 17) 中的厂、恥换成々，于是 （10. 17) 变为 


s h ~h 


一一^ 

V n\ ri2 


利用公式 （10. 20) 和 （10. 21) ，我们可进行以下 计算: 


— _ 250(0. 14) + 300(0. 09) = 62 
p — 550 ~ 550 =U * 113 


( 10 . 20 ) 


( 10 . 21 ) 


私，= y (0. 113)(0. 887)( 士 + 士） =0.027 1 

利用公式 （10. 19)，检验统计量的值为 

(万1 一万 2) 一 （Pi 一 P 2) — (0. 14 -0. 09)-0 1 

s- P ^ h — 0.027 1 =1 . 6 ) 

由于 1.85>1.645， 所以原假设被拒绝。该侧区域与 z = l . 85相关的是 0.5000-0. 467 8 = 
0.0322。因此，双侧 p - 值是 2 x 0. 032 2 = 0.0644, 它小于 a =0.10。 样本资料表明，两个总体 
出错率差别明显。 

就像我们见到的两个总体均值之差的假设检验，也可对两个总体比例之差进行单侧检验。单 
侧检验拒绝域的建立类似于单个总体比例的假设检验方法。 



方法 

30. 考虑来自两个总体的两个独立样本的如下 资料: 


样本1 
n-i = 400 
p, =0.48 


样本2 
ni — 300 
p 2 = 0. 36 
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a . 两个总体比例之差的点估计量是多少？ 

b . 求两个总体比例之差的90%置信区间。 

c . 求两个总体比例之差的95%置信区间。 

31. 考虑假设 检验： 

自测题 Ho ： p\ - p 2 ^0 

H a ： pi - p 2>0 

下面的结果取自两个总体的两个独立 样本： 

样本1 样本2 

m = 200 ri 2 = 300 

p \ = 0. 22 戶 2 = 0.16 

a . 对 a =0.05，进行假设检验并得出你的结论。 

b . p - 值是多少？ 

应用 

32. Business Week / Harris 对大公司的资深经理进行一次关于未来经济展望的问卷调查 （Business 
Week , June 16, 1997) 。调查的一个问题是“你认为你的公司在未来的12个月内，全日制雇员 
的数目是否会增加？”在1997年5月的调查中，400名经理中有220人的回答是“是”，而 
在1996年12月的调查中，400名经理中有192人回答“是”。求两个时点比例之差的95%置 
信区间。你对该区间估计有何解释？ 

33. Gallup 民意测验发现，在被调查的505名男子和496名女子中，分别有16%和25%的人赞同 
在全国范围内禁止销售啤酒、葡萄酒和烈性酒的立法。求出男子中赞同这种禁令的比例与女子 
中赞同这种禁令比例之差的95%置信区间。 

34. USA Today / CNN 民意测验评估了在1998赛季 Mark McGwire 和 Sammy Sosa 创下驱逐对手本垒 
打记录，棒球联合总会的球迷对此的支持率。在1082人组成的样本中，有682人对“你是棒 
球联盟的球迷吗”这个问题回答“是” (USA Today ，September 17, 1998) 0 在 1995 年 4 月的棒 
球赛中，在1 008人组成的样本中，只有413人对同样的问题回答“是”。 

a . 用样本率来评估1998年和1995年主要棒球联合总会的球迷支持情况。从1995年到1998 
年的棒球联盟支持率上升数的点估计量是多少？ 

b . 求球迷支持率上升数的区间估计的95%置信区间。 

35. 《财富》杂志通过 Yankelovich Partners 对600名成年人做了一次民意调查，该调查是有关结 
婚、离婚和员工妻子对她当经理的丈夫的贡献 （ Fortune , February 2, 1998) 0 对于问题“丈夫 
在外工作、妻子无收入的长期婚姻，离婚后妻子应得结婚期间积累财产的一半”,300名女性 
中有279人同意，300名男性中有255名同意。 
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a. 对于男女两个总体，样本比例是多少？ 

b. 用 a=0.05 检验假设 ft : pi - p 2 =0, 得出你的结论？ 

c. 求两个总体比例之差的 95% 置信区间。 

36. 由 1 545 名男性组成的样本和 1691 名女性组成样本，来比较双职工婚姻中男女所做家务的数 
量。研究表明， 67. 5% 的男性和 60. 8% 的女性认为自己做的家务是公平的 （American Journal of 
Sociology ， September 1994) 。 认为自己那份家务是公平的男性比例比女性比例大吗？取显著性 
水平 0.05, 进行统计检验支持你的结论。 

37. 在一次对两个电视广告质量的测试中，每个广告在一周内在某隔离的检验地区播放 6 次。下 
一周进行电话调查以识别已经看过广告的个人。对那些已看过广告的个人，要求他们陈述广 


告的主要内容。记录的资料 如下： 


广告 

看过广告的人数 

回忆起主要内容的人数 

A 

150 

63 

B 

200 

60 


a. 用 a = 0. 05, 检验加设“两个广告的回忆比例无差别”。 

b 、 计算两个总体回忆比例之差的 95% 置信区间。 

38. 2000 年早期，随着许多股票降至低于 1997 年的水平，股票市场随之低迷。事实上，纽约股票 

交易所的 81.5% 和纳斯达克股票的 72. 4% 是在 1997 年高度以下交易的（及 May 22, 
2000) 。 若 232 只纽约股票交易所的股票和 210 个纳斯达克的数据已知，检验假设 ft : - 

/>2 = 0, a =0.05 。 p- 值是多少？得出你的结论？ 

39. 雅虎在线生活 （ Fa/ioo Internet Li/e) 在一些大城市做了一些调查来评估成年人在工作中使用互 
联网的比例从； Ta 而; k . May 7,2000 )。 结果显示， 40% 的华盛顿人和 32% 的旧金山人在工 
作中使用互联网。若各自的样本容量为 240 和 250, 样本结果会显示出华盛顿成年人在工作中 
使用互联网的总体比例高于旧金山的吗？ />- 值是多少？若 o:=0.05, 得出你的结论？ 



在本章中，我们讨论了进行两个总体的区间评估和假设检验的方法。首先，我们讲了如何在 
抽取了独立简单随机样本的情况下进行两个总体均值之差的推断。我们考虑大样本和小样本情 
形。当样本容量较大时，可用标准正态分布中的 Z 值来推断两个总体均值之差。在小样本情形 
下，若总体为正态分布且方差相等时，用 t 分布进行推断。 

接着，我们进行了两个总体均值之差的推断以用于讨论匹配样本方案。在匹配样本方案中， 
每个单元提供了一对来自各自总体的数据值。将该对数据值之差用于统计分析。由于匹配样本方 
案通常能减少抽样误差，提高估计的精确度，所以匹配样本方案优于独立样本方案。 

最后，讨论了有关两总体比例之差的区间评估和假设检验。用于分析两总体比例之差的统计 
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学方法和用于分析两个总体均值之差的统计学方法是类似的。 


水语辞义 


合并 方差： 基于组合两个 （或 两个以上）样本资料的一个总体方差的 估计； 无论两个 （或 两个以上) 
总体方差是否相等，合并方差估计都正确。 

独立 样本： 组成其中一个样本的变量与组成其他样本的变量是相互独立选出的，即取自两个(或两 
个以上）总体的样本。 

匹配 样本： 一个样本中的每个数据值与另一个样本中对应的数据之相匹配的样本。 


f 要公 



两个总体均值之差的点估计量 


X\ — X2 


( 10 . 1 ) 


^1 


^2的期望值 


A -而的标准差 


E(x\ 一 X2) = fJLl - 


fjjz 


( 10 . 2 } 


.2 


CTx ,- x , - 


(A 


Til 712 


(10,3) 


两个总体均值之差的区间 估计： 大样本情形 （ m 彡30 且叱多 30)，仍和仍已知 


X\ 一 %2 i 7,a/2CTxi 


(10.4) 


的点估计量 






(10.5) 


两个总体均值之差的置信区词 估计: 大样本情形下（如彡30且如>30)，们、0" 2 由&、幻估计 


X 1 欠 2 士 Zo/ 2 - 5^ 


( 10 . 6 ) 


crxi ~ X2- 




of 

n 2 



当 ( r ?= cr ! 时，的标准差 


(10.7) 




V 的合并估计量 
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s 


(ni ~ 1 )^1 + (ri2 ~ 1 )^2 
Tl \ + M 2 ~ 2 


( 10 . 8 ) 


当 0"?= CT 2 时，0*;,_; 2 的点估计置 


^5, 


' = y/ s2( H 


(10.9) 


两总体均值之差的区间 估计： 小样本情形（/|丨<30且/或 m <30), 仍、汉 2 由 Sl 、 s 2 估计 


X | 一戈 2 士 ta/2Sx t -X 2 


( 10 . 10 ) 


关于两个总体均值之差的假设检验统计置(大样本情形) 


(^1 -^ i ) - (tM -/ te ) 


Vo-f/ni +<ji/ri2 


两个总体均值在小样本情形的检验统计置 


( 10 . 11 ) 


(元1 - Xz ) - (从1 一 此） 




(—■^― 
ri\ rii 


( 10 . 12 ) 


匹配样本样本均值 


匹配样本的样本标准差 


n 


Sd = 


X (A ~5) 2 


n-l 


匹配样本检验统计置为(小样本情形) 


d -/ j ^ 

Sd ^ i~n 


(10.13) 


两个总体比例差的点估计置 


P 1 ~/>2 


(10.14) 


斤-恥的期望值 


E{p\ - pi ) = p \ - pi 


(10.15) 


P ' — p 2 的标准差 


<^ h~h 




l(l ~ Pl ) . P 2 (l - P 2) 


n\ 


ni 


(10.16) 



450 商务与经济统计 


oVh 的点估计量 


s v 




(1 -Pi) . P2(l ~ 


rii 


ri 2 


两个总体比例之差的区间估计:大样本情形-夕1)、/12/>2和 n 2 (l - pi )^5 


P 1 Pi i Za/2 Sp t -pj 


两个总体比例之差的假设检验统计量 


z = 


(Pi 一恥）一 （Pi _P2) 
~h 


两个总体比例的合并估计 


P = 


ri 7 P 2 


Til + 712 


当； )1 = P 2 时，％ ^的点估计量 


s Pt ~h 


= 如 1)( 


-1— + —_ 
;ii ri 2 


(10.17) 


(10.18) 


(10.19) 


( 10 . 20 ) 


( 10 . 21 ) 


针充樣 


40. 有两个关于商业专业的硕士和学士个人年薪的独立随机样本，利用下面数据来乘立关于硕士 
薪水增长的置信度为90%置信区间。 


硕士 

ni = 60 

xi =40 000 美元 
s t =2 500 美元 


学士 

712 = 80 

X2 = 35 000 美元 
52 = 2 000美兀 


41. Safegat e F 00 d S 公司正在重新设计它在全国各地超市的安全监测通道。现有两种方案，他们在装 
有两种系统的两家商店分别进行有关顾客安检时间的检测。样本数据汇总 如下： 


系统 A 

n-i = 120 

A =4. 1 分 
si = 2. 2 分 


系统 B 
^2 = 100 
元 2 = 3. 3 分 
S2 = 1 . 5 分 


在显著性水平为 0.05 下，检验两种系统的平均时间是否有差异？哪种系统更好？ 

42. 共同基金分 为有抵押金的和没有抵押金 的两种类型。有抵押金的要求投资者支付总投资额一 
定比例作为初始费用。没有抵押金就不要求支付此费用。一些金融顾问认为，有抵押金的基 
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CD 光盘数据 


Mutual 


金支付额外的费用是值得的，因为，这些基金比没有抵押金的有更高的平均收益率。 
从1998年1月12日出版的 Barron's Lipper Mutual Funds Quarterly 中选取 30 笔有抵押金 
和30笔没有抵押金作为样本。收集数据是关于5年期基金的年收入的前5个有抵押金 
及前5个没有抵押金的基金数据 如下： 


有抵押金的 平均收益率 

American National Growth 15. 51 

Arch Small Cap Equity 14. 57 

Bartlett Cap Basic 17. 73 

Calvert World International 10. 31 

Colonial Fund A 16. 23 


没有抵押金的 平均收益率 

Amana Income Fund 13. 24 

Berger One Hundred 12. 13 

Columbia International Stock 12. 17 

Dodge & Cox Balanced 16. 06 

Evergreen Fund 17.61 


a . 用公式表示 i /。 和札， 其中拒绝 i /。 表示有抵押金的基金比没有抵押金的基金5年 
期间平均年收入高的结论。 

b . 为进行共同基金假设检验使用60笔作为共同基金。使用 a =0. 05,你的结论如何？ 

c . p - 值是多少？ 


43. 由两个老师教的两个班的统计学课程期末考试分数构成的样本如下所示，对于 a = 0.05, 检 
验得出的结果能否支持两个班级的平均分数不同的结论？ 


教师 A 

教师 B 

n\ = 12 

U2 = 

=15 

%! =72 

^2 = 

= 78 

5i = 8 

S2 = 

=10 


若 a = 0.05, 通过检验这些数据，是否可以推论出两个班的平均分不同？ 

44. Figure Perfect 公司是一家专门从事减肥项目的妇女健美沙龙。以下是客户样本体重在历时六周 
的引导性项目之前和之后的 情况： 


体重 


客户 

之前 

之后 

1 

140 * 

132 

2 

160 

158 

3 

210 

195 

4 

148 

152 

5 

190 

180 

6 

170 

164 


若 a = 0.05, 检验该项目是否导致统计上体重显著减轻，你的结论如何？ 

45. 1997年的后几个月，亚洲经济出现了不景气。投资者预期亚洲经济的下滑应该对美国公司在 
1997年第四季度期间的收入有负面影响。下列样本数据给出了 1996年第四季度和1997年第 
四季度一些公司股票的每股收入 （ r/ie Wall Street Journal ， January 28, 1998) 0 
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CD 光盘数据 


Asia 


公司 

1996 年收入 

1997 年收入 

Atlantic Richfield 

1. 16 

1. 17 

Balchem Corp. 

0. 16 

0. 13 

Black & Decker Corp. 

0. 97 

1.02 

Dial Corp. 

0. 18 

0. 23 

DSC Communications 

0. 15 

- 0.32 

Eastman Chemical 

0.77 

0.36 

Excel Communications 

0. 28 

- 0. 14 

Federal Signal 

0,40 

0.29 

Ford Motor Company 

0.97 

1.45 

GTE Corp. 

0.81 

0.73 

ITT Industries 

0.59 

0. 60 

Kimberly - Clark 

0.61 

-0.27 

Minnesota Mining & Mfr. 

0.91 

0. 89 

Procter & Gamble 

0. 63 

0.71 


a . 计算和从，得出拒绝讯的 结论： 1997年第四季度每股的平均收入少于 
1996年第四季度的平均收入。 

b . 利用光盘中文件 Asia 中的数据进行假设检验，若 a = 0.05, 你的结论如何？ 


46. Harris 对1 035名成年人进行“你认为美公司在全球的经济竞争力如何”的民意 

调查。其中704名回答者认为“好”/“极好 WeeA:，September 11， 2000) 。在1996年类 
似的民意调查中，582名回答者认为“好”/“极好”。这些样本结果能够说明从1996到2000年的 
4年中，成人回答“好”/“极好”的比例上升了吗？ 

a . 写出原假设和备择假设。 

b . 计算 p - 值。 

c. 若 a =0.01，你的结论如何？ 


47. 一家大的汽车保险公司抽取了未婚和已婚男悻保险单持有人的样本，并记录了以往3年内要 
求索赔的次数。 

未婚保险单持有人 已婚保险单持有人 

rii = 400 m = 900 

要求索赔次数 =76 要求索赔次数 =90 


a . 若（^=0.05,检验未婚及已婚保险单持有人的索赔率之间是否有差异? 

b . 求两个总体比例之差的95%置信区间。 


48. 为了研究结核耐药性，进行了医学检验。在新泽西州检验的142个病历中，有9例发现有耐 
药性。在得克萨斯州检验的268个病例中，有5例发现有耐药性。这些数据是否表明，两个 
州之间有耐药性病例的比例之间在统计上有明显的差异？在显著水平为 0.02 下，检验假设 
Ho ： Pl-P2=0 。 p- 值是多少？你的结论如何？ 
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v 

案例研究 Par 公司 


Par 公司是一个较大的高尔夫球设施制造商。经理认为，引进某种耐磨持久的高尔夫球会使 
Par 公司市场占有率上升。因此， Par 公司的研究小组开始调查一种为抵抗切割及使球更耐用而设 
计的高尔夫球外膜。对外膜的检验是很有前途的。 

研究者之一关注新外膜对高尔夫球距离的影响。 Par 公司希望新的耐磨球与目前型号的球的击 
球距离相同。为比较两种球的击球距离，用40只新型号球和40只目前型号球来作检验。为了能 
将两型号的平均距离的差异归因于方案的不同，检验是由一个机械击球装置进行的。检验结果如 
下，其中距离是按最接近的码数来测量的。该数据存储在 CD 光盘的 Golf 数据集中。 



CD 光盘数据 
Golf 


型号 型号 


目前 

新型 

目前 

新型 

264 

277 

270 

272 

261 

269 

287 

259 

267 

263 

289 

264 

272 

266 

280 

280 

258 

262 

272 

274 

283 

251 

275 

281 

258 

262 

265 

276 

266 

289 

260 

269 

259 

286 

278 

268 

270 

264 

275 

262 


型号 型号 


目前 

新型 

目前 

新型 

263 

274 

281 

283 

264 

266 

274 

250 

284 

262 

273 

253 

263 

271 

263 

260 

260 

260 

275 

270 

283 

281 

267 

263 

255 

250 

279 

261 

272 

263 

274 

255 

266 

278 

276 

263 

268 

264 

262 

279 


管理报告 

1. 用公式表示并描述 PM 用于比较目前球与新球击球距离的假设检验基本原理。 

2. 通过分析数据，得出假设检验的结论，检验 p - 值是多少？ 

3. 对每种型号的数据给出描述性的统一总结。 

4. 每种型号的总体均值的95%置信区间是多少？两个总体均值之差的95%置信区间是多 
少？ 

5. 你认为高尔夫球需要更大的样本容量做进一步检验吗？讨论一下。 


附录 10. 1用 Minitab 进行两个总体均值的假设检验 


我们介绍了如何用 Minitab 对两个总体均值之间的差异进行三种假设的检验。 
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大样本情形 

我们将用到表 10. 1中的两个培训中心考试分数的数据。培训中心 A 的分数出现在 Cl 栏中， 
培训中心 B 的分数出现在 C 2 栏中。 Minitab 中设有基于 Z 检验统计量的两个样本的假设检验。尽 
管如此， Minitab 两样本 t 检验程序在大样本情形下提供了几乎一样的结果。培训中心用 Minitab 
两样本的 t 检验的必要步骤数据 如下： 

步骤 1. 选择 Stat 下拉 菜单； 

步骤 2. 选择 Basic Statistics 下拉菜单； 

步骤 3. 选择 2 -Sample t 选项； 

步骤 4. 当出现 2 -Sample t 对话框时： 

选择 Samples in different columns ； 

在 First 框中输入 Cl ; 

在 Second 框中输入 C 2， 确保 Assume equal variances (同方差假设）未 
被 选择； 

选择 Options 

步骤 5. 输入95到 Confidence level 框中； • 

在 Test Mean 框中输入0，在 Alternative 框中输入非均值； 

点击 OK ; 

步骤 6. 点击 OK 。 

Minitab 的输出结果说明 p - 值 =0. 04, 在 0. 05 意义水平下，我们拒绝乩。 

在大样本情形下，我们已指出， Z 检验统计量用于总体分布未知的情况下。然而， Minitab 设 
提供两样本 Z 检验。这样，我们必须用两样本 t 检验来满足我们的需要。对于用 H 古计^的大样 
本情形，£值由 Minitab 提供，这同 Z 值是 2.09 是相同的。因而，两样本 t 检验的惟一差别是 
P -值 =0.04 稍大于值 =0.036 6, 这可以用 z = 2. 09 的标准正态可能分布得到。在多数样本 
中 ， P - 值的小差别不影响假设检验结论。 

小样本情形 

用于描述大样本情形的 Minitab ， 两样本 〖方 法可用于两个总体均值之差的小样本假设检验。 
惟一不同的是 Assume equal variances 在步骤4选择。最后，在步骤5中的 Alternative 框中可能小 
于，不等于，或大于取决于备择假 设从。 

匹配样本 

我们用表 10.4 中的生产时间数据来说明匹配样本方法。方法1的完成时间输入 C 1 栏，方法 



CD 光盘数据 


Exam Data 


* 


Minitab 提供了假设检验和区间估计结果，使用者应选择总体均值区间估计的任何一种置信水平，这里建议选择95% 
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2 的完成时间输入 C 2 栏。匹配样本假设检验的 Minitab 步骤 如下： 

步骤 1 . 选择 Slat 下拉菜单； 

步骤 2. 选择 Basic Statistics ; 

步骤 3. 选择 Paired t ; 

步骤 4. 当 Paired t 对话框出现时： 

在 First 样本框中输入 C 1， 在 Second 样本框中输入 C 2; 

选择 Options ; 

步骤 5.在 Confidence level 中输入95，在 Test Mean 框中输人0，在 Alternative 框中输入非 
均值，点击 OK ; 

步骤 6 . 点击 OK 。 


附录 10. 2用 Excel 进行两个总体均值的假设检验 

我们介绍了如何用 Excel 对两个总体均值之间的差异进行三种假设的检验。 


大样本情形 



CD 光盘数据 


ExamData 


我们用了表 10. 1中的考试分数，以及单元 A 1 中的商标中心 A 和单元 B 1 中的商 
标中心 B。A 中心的分数在单元 A 2: A 31 中， B 中心分数在单元 B 2: B 41 中，我们假定 
VAR 功能用于计算两个总体变量，因而，我们有 A = (8) 2 = 64 和 A = (10) 2 = 100。 进 
行检验的步骤 如下： 


步骤 1 . 选择 Tools 下拉 菜单； 

步骤 2.选择 Data Analysis ; 

步骤 3•当 Data Analysis 对话框出现时： 

选择 z - Test ： Two samples for Means ; 

点击 OK ; 

步骤 4* 当 z - Test : Two Sample for Means 对话框出现时: 
在 Variable 1 Range 框中输入 A 1 : A 31; 

在 Variable 2 Range 框中输入 B 1 ： B 41； 

在 Hypothesized Mean Difference 框中输入 0; 
在 Variable 1 Variance 框中输入64; 

在 Variable 2 Variance 框中输入 100; 

选择 Labels ， 

在 Alpha 框中输入 0. 05; 

选择 Output Range 和在框中输人 Cl ; 
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点击 OK 。 


检验统计量的值 z =2. 09出现在单元格 D 8 中， p - 值 =0.036 6 岀现在单元格 D 11 中。 


小样本情形 



CD 光盘数据 


Software 


我们利用表 10. 3中的软件研究数据。数据已输入到单元格 A 1 中的当今 label 和单 
元格 B 1 中的新 label 的 Excel 工作表中。当今技术的完成时间在单元格 A 2: A 13 中，新 
软件的完成时间在单元格 B 2: B 13 中，下列步骤用于计算有关两个总体均值差的小样本 
假设检验： 


步骤 1 . 选择 Tools 下拉 菜单； 

步骤 2. 选择 Data Analysis ; 

步骤3 .当 Data Analysis 对话框出现时： 

选择 t - Test : Two Sample Assuming Equal Variances ； 

点击 OK 。 

步骤 4 .当 t - Test : Two sample Assuming Equal 对话框出现时： 
在 Variable 1 Range 框中输人 A 1 : A 13； 

在 Variable 2 Range 框中输人 B 1 : B 13; 

在 Hypothesized Mean Difference 框中输入 0， 

选择 Labels ; 

在 Alpha 框中输入 0. 05; 

选择 Output Range ; 

在框中输入 Cl ; 

点击 OK 。 


检验统计量的值 t =2. 16出现在单元格 D 10 中，单边值 =0.021 岀现在单元格 D 11 中 


匹配样本 



CD 光盘数据 
Matched 


我们利用表 10.4 中的匹配样本完成时间来 说明： 数据输入工作表中， label 方法1 
在单元格 A 1 中， label 方法2在单元格 B 1 中。单元格 A 2: A 7 中方法1的完成时间和 
单元格 B 2： B 7 中方法2的完成时间。 Excel 方法使用步骤来精确描述除选取步骤3中的 
t - Test : Paired Two Sample for Means 数据分析工具以外的小样本情形 。 Variable 1 range 是 


A 1： A 7, variable 2 range 是 B 1: B 7。 检验统计量的值 t = 2. 196 在单元格 D 10 中，双边 


p - 值= 0. 08在单元格 D 13 中。 



关于总体方差的推断 


统计 实例： 美国会计总署 

11.1 关于一个总体方差的统计推断 

0* 2 的区间估计 
假设检验 

11.2 两个总体方差的统计推断 
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_麵__:麵 


美国会计总署 

华盛顿 • 

美国会计总署 ( GAO ) 是联邦政府立法机构中的 
一个审计组织，该组织是独立非官方的。 GAO 的 
稽核员对联邦的日常计划和方案提议的有效性掌 
握生杀大权。为了履行他们的责任，稽核员必须精 
通复审和立法调查，并且需要熟练掌握统计分析 
技术。 

在这个案例中， GAO 的稽核员对一个净化全 
国河流湖泊的内务部门进行研究。该项目其中一个 
任务是对全美的小城市进行审查。国会要求 GAO 
提高判断项目的运作效率。为此， GAO 就要求检 
查相关的记录并走访了几家废物处理厂。 



水处理厂的流出物需经过统计检验判断其 pH 值范围。 
© John Boykin/The Stock Market. 


GAO 稽核员的目的之一是确认这些工厂的排 
泄物（治理后的污水）达到一定的标准。另外还包括 
其他的任务即样品资料的检验，如含氧量、 pH 值 
和排泄物中的悬浮固体物质。他们还必须在每个工 
厂进行日常的各种测验，收集资料定期送往各州的 
工程部门。 GAO 的调查情况还有排泄物的各项特 
性是否达标。 

比如说，排泄物的平均 pH 必须经过仔细的检 
测，除此之外，上报的 pH 值的方差也需进行复查。下 
面就排泄物 pH 值的总体方差进行假设检验。 

Hq: o 2 = al 
H a ： o 2 ^ (To 


* 作者感谢美国会计总署的 Art Foreman 和 Dale Ledman 
提供统计应用的资料。 


在该检验中， W 代表运作良好的工厂必须达 
到的 pH 值总体方差。比如在一家工厂，如原假设 
被拒绝，进一步分析发现该厂的 pH 值方差明显低 
于正常状态。 

稽核员到该厂检查测量设备并与该厂厂长讨论 
了有关统计数字。稽核员发现，操作员不知如何操 
作从未使用的测量设备。相反，操作员从工程师得 
知正常的 pH 值后，在没有做任何检验的情况下简 
单记录了几个类似的值。结果该厂因为其显著偏低 
的方差导致 讯被 拒绝。 GAO 怀疑其他厂也有类似 
的问题，便建议对操作员培训提高收集治污资料的 
水平。 

在本章中，将介绍如何进行单个或两个总体方 
差的统计推断。这里将出现两种新的用于进行总体 

方差的区间估值及假设检验的分布即/分布和 F 
分布。 
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前4章我们介绍了总体的均值和比例方面的统计推断方法。本章将继续讨论总体方差的推断 
问题。为了解释一个方差如何提供决策性信息，我们以一个液体清洁剂的罐装生产过程为例。该 
生产过程的灌装机械装置经过调整，假定每个容器的重量为16盎司。规格设计量为16盎司，但 
灌入量仍然会发生偏差。也就是说，即使机械装置经过了很好的调整，我们也无法使容器装入量 
精确为16盎司。选择一些容量作为样品，我们可以计算出容器内液体的重量的方差。这个值可以 
作为整个灌装生产过程的方差。若样本方差适度，生产可以继续进行，若方差过大，即使均值恰 
好是16盎司也有可能发生过溢或不足的情况。在这种情况下，灌装机械装置就必须经过调整来减 
少容器的灌装方差。 


在许多生产应用中，为了保证质量，控制方差极为重要。 


下面我们先考虑单个总体方差的推断。接着讨论两个总体方差的推断步骤。 


11.1 关于一个总体方差的统计推断 


前几章我们用样本方差 


S (xi ~x ) 2 

一 1 


( 11 . 1 ) 


作为总体方差 V 的估计值。使用样品方差作为推断单个总体方差的基础， （/ i - lhW 的样品抽 
样分布起着很大作用。该抽样分布如下 所述： 


{ n -\) s 2 / & 1 的抽择分布 

从一个正态分布中任意抽取一个样本容量为〃的样品，则 

U - 1 )〆 

o 1 

(11.2) 

抽样分布为自由度为 n -\ 的; t 2 分布。 



/分布 是以从正态总体取得样本为基础的 


图 11.1 列出了 （ n - l )// 沪抽样分布的几种可能类型。 

从概率表上我们很容易查到; t 2 分布。因为只要样品取自一个正态分布，则 （ n - lhVf 抽样 
分布就是; t 2 分布，我们可以利用; t 2 分布计算一个总体方差的区间估计值并对其进行假设检验。 


9 
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图 11. 1 U-lhVcr 2 的抽样分布 （/ 分布）举例 


士 的区间估计 

为了阐述如何利用妒分布来计算单个总体方差 〆 的精确区间估计值，回到刚才讨论的灌装 
生产过程，我们估算该过程的总体方差。取 20 个容器作为一个样本，可求得灌装量的样本方差为 
5 2 = 0 . 002 5 o 我们知道， 20 个容器组成的样本无法提供全部容器的灌装量总体方差的精确值。因 
此，接下来，我们将研究如何计算总体方差的区间估计值。 

记;^为妒分布的《水平右侧分位数。例如，图 11. 2所示的自由度为19的;^分布， ^ 0.025 = 
32. 852 3表明有2, 5%的; t 2 分布值落在 32. 852 3 右侧； ^ 0.975 = 8 . 906 55表明有 97. 5%的;分布 
值在 8.906 55 右侧。与表 11.1 对照可知自由度为19的妒分布值正确。附录 B 中的表3提供了 
更多 的/分 布值。 



图 11.2 自由度为19的;的分布图 


从图 11.2 的曲线中我们可以看出，/分布值的 0.95 或95%在和;^.。 25 之间，即获得; r 2 
值符合;^.975系；|^矣；^.。25的概率为 0. 95。 
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表 11.1 妒分布表节选’ 





右侧面积 


1—1 

0. 99 

0. 975 

0.95 

0. 05 

0. 025 

0. 01 

1 

157 088 xlO, 9 

982 069x10 9 

393 214 xl0- 8 

3. 841 46 

5. 023 89 

6. 634 90 

2 

0. 020 100 7 

0. 0 506 356 

0. 102 587 

5.99147 

7. 377 76 

9.210 34 

3 

0. 114 832 

0. 215 795 

0.351 846 

7. 814 73 

9. 348 40 

11.344 9 

4 

0. 297 110 

0. 484 419 

0.710 721 

9. 487 73 

11. 143 3 

13, 276 7 

5 

0. 554 300 

0. 831 211 

1. 145 476 

11.070 5 

12. 832 5 

15. 086 3 

6 

0, 872 085 

1.237 347 

1. 635 39 

12. 591 6 

14. 449 4 

16.8119 

7 

1. 239 043 

1.689 87 

2. 167 35 

14. 067 1 

16.012 8 

18.475 3 

8 

1.646 482 

2. 179 73 

2. 732 64 

15. 507 3 

17. 534 6 

20. 090 2 

9 

2. 087 912 

2. 700 39 

3. 325 11 

16.919 0 

19. 022 8 

21.666 0 

10 

2. 558 21 

3. 246 97 

3. 940 30 

18. 307 0 

20. 483 1 

23. 209 3 

11 

3. 053 47 

3.815 75 

4. 574 81 

19. 675 1 

21.920 0 

24. 725 0 

12 

3. 570 56 

4. 403 79 

5. 226 03 

21.026 1 

23. 336 7 

26.217 0 

13 

4. 106 91 

5. 008 74 

5. 891 86 

22. 362 1 

24. 735 6 

27. 688 3 

14 

4. 660 43 

5. 628 72 

6. 570 63 

23. 684 8 

26. 1190 

29. 141 3 

15 

5. 229 35 

6. 262 14 

7. 260 94 

24. 995 8 

27. 488 4 

30. 577 9 

16 

5.812 21 

6. 907 66 

7. 961 64 

26. 296 2 

28. 845 4 

31.999 9 

17 

6. 407 76 

7. 564 18 

8. 671 76 

27. 587 1 

30. 191 0 

33- 408 7 

18 

7. 014 91 

8. 230 75 

9. 390 46 

28. 869 3 

31.526 4 

34. 805 3 

19 

7. 632 73 

8. 906 55 

10. 117 0 

30. 143 5 

32. 852 3 

36. 190 8 

20 

8, 260 40 

9. 590 83 

10. 850 8 

31.4104 

34. 169 6 

37. 566 2 

21 

8. 897 20 

10. 282 93 

11.591 3 

32. 670 5 

35. 478 9 

38. 932 1 

22 

9. 542 49 

10. 982 3 

12, 338 0 

33. 924 4 

36. 780 7 

40. 289 4 

23 

10. 195 67 

11.688 5 

13. 090 5 

35. 172 5 

38. 075 7 

41.638 4 

24 

10. 856 4 

12. 401 1 

13. 848 4 

36. 415 1 

39. 364 1 

42. 979 8 

25 

11.524 0 

13, 1197 

14.6114 

37. 652 5 

40. 646 5 

44.314 1 

26 

12. 198 1 

13.843 9 

15, 379 1 

38. 885 2 

41.923 2 

45. 641 7 
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_ (续表) 

右侧面积 


自由度 



0. 99 

0.975 

0.95 

0. 05 

0. 025 

0. 01 

27 

12. 878 6 

14.573 3 

16. 1513 

40. 113 3 

43. 194 4 

46. 963 0 

28 

13.564 8 

15. 307 9 

16. 927 9 

41.337 2 

44. 460 7 

48. 278 2 

29 

14. 256 5 

16. 047 1 

17. 708 3 

42. 556 9 

45. 722 2 

49. 587 9 

30 

14. 953 5 

16. 790 8 

18.492 6 

43. 772 9 

46. 979 2 

50. 892 2 

40 

22. 164 3 

24. 433 1 

26. 509 3 

55. 758 5 

59. 341 7 

63. 690 7 

50 

29. 706 7 

32. 357 4 

34. 764 2 

67. 504 8 

71.420 2 

76. 153 9 

60 

37. 484 8 

40.481 7 

43. 187 9 

79. 081 9 

83. 297 6 

88. 379 4 


* 其他妒分布值见附录 B 中表3。 


然而，如图 11.2 所述， （/i-lhVcr 2 服从^分布，因此可以将 U-lh 2 /(7 2 代入公式，记为 

XO. 975 ^ ^ ^ ^ °25 (11* 3) 

实际上，如公式（11_3)所示， （/1-1)SW 所求可能的取值落在区间（^975,娀。2 5 )的概率为 
0.95 或95%。现在我们对公式 （11. 3) 进行代数运算以获得总体方差的沪区间估计值。由公式 
(11. 3) 左半部分可得 


即 


X0. 975 


n- IV 

(T 2 


cr 2 )^0. 975 ^ ( ri — 1 ) 5" 


或 

对右半部分同理，可得 

公式 (11.4) 和 （11.5) 结合为 


o * 2 彡 


(71 _ 1 V 


Xo- 


975 


(71-1 )5 2 


Xo. 


^ (T 2 


025 






025 




975 


(11.4) 


(11.5) 


( 11 . 6 ) 


因为公式（11.3)对于95%的（0-1)//^的值成立，故公式 （11. 6) 给出了总体方差沪的95%的 
置信区间估值。 

回到刚才那个计算罐装量总体方差的区间估值的问题上。已知由20个容器组成的样本可得样 
本方差 P =0.002 5。样本的容器量为20,故其自由度为19。如图 11.2 所示，我们已经知道;^. 925 = 
8.90655, #。 25 = 32.852 3,把这两个数值代入公式 （11. 6) 可得到以下总体方差的区间 估计： 
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(19)(0.002 5) ^= (19)(0. 002 5) 
32. 852 3 ' a ' 8. 906 55 

或 0.001 4彡 cr 2 彡 0.005 3 

开平方后可得如下所示的总体标准差的95%的置信 区间： 

0 . 037 4 ^( 7 ^ 0.072 8 


总体标准差的置信区间可通过计算总体方差的置信区间的下限和上限的平方根得 


出。 


以上我们已经阐述了如何利用尸分布建立总体方差和总体标准差的区间估计。我 
们可以注意到，使用雇975和;^.。 25 时区间估计的置信系数为0.95。推而广之，我们可以 
得到关于总体方差的区间估计公式 如下： 

单个总体方差的区间估计 

(11.7) 

X^ 2 Aftl - a/2) 

式中 ，/值 是以自由度为 （ n -1) 的/分布为基础的， 1- a 为置信系数。 


假设检验 

现在我们来介绍一个例子和对单个总体方差值进行假设检验所用的统计方法。 St . Louis 汽车 
公司最近要求其员工恪守时间，以在公众面前树立一个良好的值得信赖的形象。该公司要求各个 
汽车的汽车到站时间变化不能太大，并将此作为一项标准的制度。就到站时间的方差来讲，公司 
要求的标准是到站时间方差不超过4分钟，公司定期地收集各汽车站的汽车到站时间，看各司机 
是否遵守时间。下面的假设检验就使用了样本 资料： 


Ho ： cr 2 彡4 
H a : a 2 >4 


若 i /。 为真，则到站时间的方差达到公司标准。只有当样本结果反映到站时间方差不符合公 
司标准时，我们才拒绝讯。从这一点上说，讯被拒绝就说明了必须采取进一步的措施以减少到 
站时间方差。 



CD 光盘数据 


MetroBus 


假设在某市的汽车中转站抽取任意的10次汽车到站时间作为一个样本。若到站 
时间总体呈正态分布，我们可由公式（11.2)得知（^1-1)//沪服从自由度为（；1-1) 
的; t 2 分布。因此，检验统计数为 
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( 11 . 8 ) 

服从自由度为的; t 2 分布。根据原假设沪= 4、样本容量71 = 10和样本/，公式 （11. 8) 
给出了妒的下列观 察值： /=芽 

图 11.3 是; t 2 的分布，显示出单侧检验的拒绝域。请注意只有当样本方差/导致; t 2 分布值过大 
时，我们才拒绝// 0 。 



图 11.3 当 a =0.05 时， St. Louis 公司汽车检验的拒绝域 


当 a =0.05 时，由表 11.1 可知，自由度为9时，；^.。 5 = 16. 919。以此作为检验的临界值，拒 
绝规则如 下式： 

当妒 >16. 919时，拒绝// 0 

假设由10次到站时间组成的一样本，求得样本方差 s 2 =4.8 0 这个值能否导致讯被拒绝，因而 
得出汽车司机没有遵守制度的结 论呢？ 我们可以将其代入公式得 


因为妒 = 10. 8小于16.919,则不能拒绝//。。也就是，样本方差 s 2 =4.8 f 不能说明汽车司机没有 
遵守时间制度。 

假设检验还可以采用 p - 值规则。常用的拒绝规 则为： .当；)-值<«时拒绝//。。然而，从分 
布中很难查到 p - 值，因此必须使用 Minitab 软件或 Excel 软件。附录 11. 1和 11. 2列出了相关的 
步骤。在前面的例子中，检验统计量; ^ = 10.8 相对应的 p - 值为0.29。因为 p - 值 0.29 >a = 
0.05,所以不能拒绝原假设。 

拒绝 规则： 如果 p - 值 < a , 则拒绝//。，被用于这一假设检验中。附录 11.1 或 11.2 
说明了如何使用 Minitab 软件或 Excel 软件计算 p -值。 
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在实践应用中，检验统计量最经常使用的是单侧检验。在对汽车到站时间、生产时间、罐装 
重量、零件尺寸等检验时，一般都要求较小的方差，而较大的方差则不大可能接受。已知容许的 
最大总体方差，我们可以建立原假设，检验总体方差是否不超过容许的最大值，还是大于容许的 
最大值。 


然而，我们除了对总体比例和均值检验时，还可对其他总体参数检验。单侧 检验： Ho ： O - 2 ^ 
W 与前面的检验相似，惟一不同的是，其拒绝域在 妒分布 临界值的左侧。现在总结单侧检 
验总体方差的 步骤： 


单侧裣验总体方差 

Ho ： cr 2 ^ o-o 


H a : cr 2 > (To 

裣验统计屋 


拒绝现则 

采用检验统 计量： 当妒>；^时， 拒绝讯 
采用值： 当-值<0£时，拒绝好。 

式中， W 表示一个总体方差的假设值，/是自由度为 n -1 的妒分布。 


单侧裣验总体方差 

H 0 ： o 2 多 oi 

H a : (t 2 < oi 

检验统计屋 

o ( n -\ ) s 2 

〆 - cr§ 

拒绝规则 

采用检验统计量：当时，拒绝 ft 
采用值： 当；)-值<«时，拒绝执 

式中，（7§表示一个总体方差的假设值，是自由度为 n -1 的/分布。 

上述中双侧检验与其他总体参数的双侧检验相似，分布两侧的面积占为 a /2 的面积是检验的 
临界值。下面介绍对一个总体方差双侧检验的拒绝 规则： 


一个总体方差的双侧裣验 

Ho ： o 2 = (To 


H a : a 2 ^=(To 
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检验统计屋 

拒绝规则 

采用检验统计量当; ^<#-0/2) 或;^>；^2时，拒绝执 
采用 p - 值：当 p - 值 <0：时，拒绝讯 

式中， d 表示一个总体方差的假设值，和^2是自由度为 AI -1 的;^分布。 

为了阐述对一个总体方差进行双侧检验时如何运用; t 2 分布，我们介绍一个机动车辆管理处所 
遇到的问题。以前，申请驾照的个人考试分数方差为^ = 100。现在采用了新的考卷。该管理处 
负责人采用了新的考试试卷后个人考试分数保持在原有水平。为了估算新试卷考试分数的方差， 
他们采用了以下的双侧假设 检验： 


Ho ： o 2 = 100 
H a ： a 2 # 100 


如果仏被拒绝就说明了方差发生了变化，因此要使新的试卷分数方差保持原有水平必须对 
新试卷进行修订。取30份新版试卷的考试分数作为样本。 

采用妒分布进行双侧检验。假设显著性水平为0.05,则临界值为;^. 975 和;^.。 25 。当自由度为 
1=29时，表 11. 1中可知;#97/=16. 0471, #。 25 =45.7222。双侧检验的拒绝规则为 


如果 妒 <16. 047 1或妒 >45. 72 2 2时， 拒绝执 

若由30份新试卷考试的分数组成一个样本的方差 f = 64 时，我们可以得出什么样的结论 


呢？因为执：/ = 100为真，/的统计量计算为 

0 ( n-lV _ 29(64) 
r 一 al 100 


= 18. 56 


因为 18.56 不在拒绝区域中，我们不能拒绝执。因此我们可知，新试卷考试的分数与以往考 
试分数的方差没有什么变化。附录 11. 1和 11. 2中可看出该假设检验的 P - 值为 0. 136。 



方法 

1. 从表 11. 1 或附录 B 的表 3 中找出下列； t 2 分布 的值: 


*编 者注： 疑原书误为0.925。 
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a . 自由度= 5，求 ;$05 d . 自由度= 10，求 #.01 

b . 自由度= 15，求; 6.025 e . 自由度= 18，求; 6.95 

C. 自由度= 20，求; 975 

2. 由20个个体组成一个样本，样本标准差为5: 

a . 计算总体方差90%置信区间。 

sIm b . 计算总体方差95%置信区间。 

c . 计算总体标准差95%置信区间。 

3. 由16个个体组成一个样本，样本标准差为8。取（^ = 0.05,检验下列假设，得出你的结论 

Ho ： a 2 ^ 50 
H a ： a 2 >50 


应用 

4.药物重量的方差在制药工业中非常关键。以某一特定的药物为例，按克计量，由18个单位组 
成的样本求得样本方差为 s 2 =0. 36。 

a . 建立一个该药物重量总体方差的90%置信区间。 

b . 建立一个总体标准差的90%置信区间。 


5,有8个城市的租车的曰费用如下所示 （ 77 ie Wall Street Journal ，December 12, 1997) : 


城市 

租车曰费用/美元 

城市 

租车日费用/美元 

亚特兰大 

47 

菲尼克斯 

40 

芝加哥 

50 

匹兹堡 

43 

达拉斯 

53 

圣弗朗西斯科 

39 

新奥尔良 

45 

西雅图 

37 


a . 计算这些数据的方差和标准差。 

b . 租车费用的总体方差的95%置信区间是多少？ 

c . 总体标准差的95%置信区间是多少？ 

6. Oppenheimer Capital Appreciation 互助基金5年中的平均收益率为 17. 6%。假设下列各数分别代 
表这5年中每年的收 益率： 10.8, 34.2, 4.2, 9. 4和 29. 4。年收益率的标准差可反映出风险 
大小，标准差越大，方差越大，则年收益的不确定性也越大。一份报告中指出10只类似增长 
型基金的标准差为18.2%。 

a . 用以上数据作为5年收益的样本，由此求得的样本方差可以反映出 Oppenheimer Capital Ap ¬ 
preciation 互助基金的风险，求出该值 D , 

b . Oppenheimer Capital Appreciation 继今年收益的总体标准差的95%置信度区间是多少？ 

7. 作为一个样本，下面举出了 1998年8份股票的利润估计值 （ Barron ’ s ，December 8, 1997) : 
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公司 

每份股票的利润估计值 

AT&T 

2. 92 

Caterpillar 

4. 65 

Eastman Kodak 

4.27 

Exxon 

3.09 

Hewlett-Packard 

3. 57 

IBM 

7.04 

McDonald’s 

2.64 

Wal-Mart 

1.74 


a . 计算以上数据的样本方差和样本标准差。 

b . 总体方差的95%置信区间是多少？ 

c . 总体标准差的95%置信区间是多少？ 

8. 由12位证券分析员组成的小组对 Qualcomm 有限公司2001年每份股票的利润进行了估算，数 
据 如下： 

1,40 1.40 1.45 1.49 1.37 1.27 1.40 1.55 1.40 1.42 1.48 1.63 

a . 计算每份股票利润估计值的样本方差。 

b . 计算每份股票利润估计值的标准方差。 

c . 给出总体方差和总体标准差的95%置信区间。 

9^ _ 汽车零件必须经过细致加工才能使其公差小，顾客才会接受。生产技术要求零件长度 

最大公差为0.000 4。设由30个零件组成的样本求得样本方差5 2 = 0. 000 5 o 取 a = 

自测题 

0.05,检验总体方差是否符合标准 。 

10. —个 YCR 的平均寿命为6年，标准差为0.75年（ Consumer Reports 1995 Buying Gu —) 。 取30 
台电视机的寿命组成一个样本，其样本标准差为2年。进行假设检验电视机寿命的标准差是 
否显著大于 VCR 寿命的标准差，取 a =0.05, 得出你的结论。 

11. 各地的30年定期贷款的抵押利息率各不相同。2000年夏天，全国各地的资料表明利息率标准 
差为 0. 096( The Wall Street Journal , September 8, 2000), 平方为 （0. 096) 2 = 0. 009 216。 2001 年 
对此继续研究。取20个贷款作为一个样本，其30年贷款的利息率的样本标准差为0,114。对 
下面的 假设： 讯：沪= 0.009 216，检验样本资料是否表明利息率的方差有所改变。取 a = 
0.05,得出你的结论。 

12. 《财富》杂志作了一次调查，发现订阅该杂志的人拥有一辆或租用一辆车子数的方差为 
0.94。假设另一份杂志的订阅者拥有或租用的车辆数如下所示:2，1，2,0,3,2,2，1，2，1，0，1。 

a . 计算这12位订阅者拥有或租用的车辆数的样本方差。 

b . 对假设讯： cr 2 = 0. 94检验，车辆数方差是否与《财富》的车辆数方差 cr 2 = 0. 94不同。取 
a = 0. 05,得出你的结论。 
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11.2 两个总体方差的统计推断 

在统计学的一些应用中，我们或许想比较两种生产线生产出来的产品质量的方差、两种装 
配方法所需装配时间的方差或者两种加热装置的温度的方差。对两个总体的方差进行比较时，我 
们可以使用两个独立的随机抽取的样本，设它们分别取自总体1和总体2。两个样本方差 d 和 d 可 
以作为推断两个总体方差 (7? 和(7〗的基础。当两个正态总体的方差相等时 Cd ), 样本方差的比 
S 2 i / S 2 的抽样分布如下所述： 

当 O '? = CT ! 时，的抽样分布 

设由两个具有相同方差的总体中抽取的两个独立的样本容量分别为&和712，则 

今 (11.9) 

S2 

的抽样分布为分子自由度为 711-1 和分母自由度为 712-1 的 F 分布。4是由总体1中 Til 
个个体组成的样本方差，而4是由总体2中 m 个个体组成样本的样本方差。 


« w tn I ,| 瓣和 


F 分布表是以两个正态分布的抽样分布为基础的。 




图 11.4 描述了分子和分母的自由度均为20时的 F 分布情况。由图可知， F 分布不对称，而 
且 F 值永远不取负值。任何 F 分布的形状取决于分子分母的自由度大小。 



图 11.4 分子和分母自由度均为20的 F 分布图 

我们用 ^表 示其右侧的面积或概率值为 a 的 F 分布。比如说，由图 11.4 可见， Fa Q5 表示 
分子分母自由度为20时，右侧有5%的 F 值。表 11.2 中可见对于这种 F 分布， Fo . Q 5 =2. 12。附 
录 B 的表4提供了更多的 F 分布值。现在介绍 F 分布在进行两个总体方差的假设检验中的应用。 
Dullus 学校想更新一下来年的汽车服务的合同，但须在 Milbank 公司和 Gulf Park 公司中选择 
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表 11. 2 f 分布表节选 + 



分母的自由度 



6 

7 

8 

9 

10 

12 

15 

20 

1 

234.0 

236.8 

238.9 

240.5 

241.9 

243.9 

245.9 

248.0 

2 

19. 33 

19. 35 

19.37 

19. 38 

19. 40 

19.41 

19.43 

19.45 


3 8.94 8.89 8. 85 8.81 8. 79 8.74 8.70 8. 66 

4 6. 16 6. 09 6. 04 6. 00 5.96 5.91 5. 86 5. 80 

5 4.95 4,88 4. 82 4.77 4.74 4. 68 4. 62 4. 56 

6 4. 28 4.21 4. 15 4. 10 4. 06 4,00 3. 94 3. 87 

7 3.87 3.79 3.73 3.68 3.64 3.57 3.51 3.44 

8 3.58 3. 50 3.44 3.39 3.35 3. 28 3.22 3. 15 

9 3. 37 3.29 3.23 3. 18 3,14 3.07 3.01 2. 94 

10 3.22 3.14 3. 07 3.02 2. 98 2.91 2. 85 2. 77 

11 3.09 3.01 2. 95 2. 90 2. 85 2. 79 2. 72 2.65 

12 3.00 2,91 2. 85 2. 80 2. 75 2. 69 2. 62 2. 54 

13 2. 92 2 . 83 2. 77 2.71 2. 67 2. 60 2. 53 2.46 

14 2. 85 2. 76 2. 70 2. 65 2.60 2.53 2. 46 2. 39 

15 2. 79 2.71 2.64 2. 59 2.54 2. 48 2. 40 2. 33 

16 2.74 2. 66 2. 59 2. 54 2.49 2. 42 2.35 2. 28 

17 2. 70 2.61 2. 55 2.49 2. 45 2,38 2.31 2. 23 

18 2. 66 2. 58 2.51 2. 46 2.41 2. 34 2. 27 2. 19 

19 2. 63 2. 54 2. 48 2. 42 2. 38 2. 31 2. 23 2. 16 

20 2.60 2.51 2. 45 2. 39 2. 35 2. 28 2. 20 2. 12 

21 2. 57 2. 49 2. 42 2. 37 2. 32 2. 25 2 . 18 2. 10 

22 2. 55 2. 46 2. 40 2. 34 2. 30 2. 23 2. 15 2. 07 

23 2. 53 2.44 2.37 2. 32 2.27 2. 20 2. 13 2.05 

24 2.51 2 . 42 2. 36 2. 30 2. 25 2. 18 2.11 2.03 


* 其他的 F 分布值见附录 B 的表4。 
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一个。我们先用汽车到达的时间和运送时间作为衡量汽车服务质量的标准。方差越小，则表示服 
务质量稳定且水平高。如果两家公司的汽车到达时间的方差相等， Dullus 学校的负责人就会选择 
价格较低的那家公司。然而，如果两家公司的汽车到达时间方差迥异，这位负责人将考虑服务级 
别更好或方差更小的那家公司。对应的假设 如下： 

Ho ： d \ = o \ 

H a : cr ? 7^ oi 

如果拒绝 //。， 则说明两家公司的服务质量不同。那么，这位负责人将选择方差较小的那家公司。 

假设检验中取 a =0.10。假设我们从目前学校正在使用的两种汽车服务中收集汽车到达时间 
作为样本。其中样本1为25次 Milbank 公司汽车到达时间组成的样本，样本2为16次 Gulf Park 
公司汽车到达时间组成的样本。图 11.5 中的曲线表示分子自由度为 m - l =24, 分母自由度为 
/ i 2 -1 = 15 的 F 分布。 注意两侧检验的拒绝域两侧的临界值分别为凡. 95 和 F 0 . 0So 



图 11.5 当 a =0.10 时， Dullus 学校校车例子的拒绝域 

设由两个样本求得 Milbank 公司服务级别的样本方差4 = 48,而 Gulf Park 公司服务级别的样 
本方差4 = 20。由此可得出什么恰当的结论？假设两个总体到达时间总体均值呈正态概率分布， 
并且假定//。： 为真。我们可以用 F 分布得出结论。为此，我们参考图 11. 5所示的拒绝域 

进而计算岀 F = 的值。具体如下 所示： 



48 

20 


= 2. 40 


参照附录 B 的表4,我们可以查岀分子自由度为24,分母自由度为15的上侧临界值凡. 05 = 
2.29。虽然表4没有给出八. 95 的值，但注意到这里不需要确定下侧临界值，所以对本体没有影 
响。由上述可知，尺= 2.40大于^.0 5 =2.29,所以，在显著性水平为 0.10 时，执被拒绝。由这 
个结果我们可知两家汽车公司运送时间方差不同。因此， Dullus 学校负责人就可以优先考虑服务 
更好或方差较低的 Gulf Park 公司。 
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对两个总体方差进行假设检验时也可以用 />- 值方法。常用的拒绝规 则是： 当/>-值<«时， 
拒绝讯。然而和/分布一样，我们很难从 F 分布表中直接得到 P - 值。但是，我们可使用 
Minitab 软件包或 Excel 。 附录 11. 1和 11. 2列出了这两种软件的应用方法步骤。在研究上面校车 
问题时，我们可以得知 F = 2. 40对应的 p - 值=0.082。因为值 =0.082< o : = 0. 10,因此方差 
相等的假设被拒绝。 

当 p - 值 < a 时，拒绝执的拒绝规则对该检验同样适用。 

在上面的校车的例子中，可能我们进行假设检验时是幸运的，因为 F 分布表中没有给出右侧 
临界值 Fo.95, 而我们仍旧能够在不知道 A.95 大小的情况下得出正确的结论。但如果需要知道右 
侧临界值 F ( I _), 可通过 K 和 i ^- a ) 的关系来求出 A ,- a ) 值，关系见下公式： 

1 - 4 .dfj.df ； - ~^£~ ( 11. 10} 

公式 11. 10说明了如何根据右侧临界值 F 值求出相应的左侧临界值 F 值。根据表 
11.3 及附录 B 中表 4 所示的右侧临界值 F 值，我们可以计算出相应的左侧临界值 F 
值。因此就没必要专门求出左侧临界值 F 值。 


由上式可知，分子自由度为 24 (dfi =24)，分母自由度为 15( df 2 = 15) 时， F0 . 95 是分子自由度为15， 
分母自由度为24的 F q . o 5 的倒数。从 F 分布表中我们可以查得分子自由度为15,分母自由度为 
24的值&.。 5 大小为2, 11,因此，分子自由度为24，分母自由度为15的 Fo .95 值的大小为： 

Fo. 95 - 2^\ \ = 0 . 47 

虽然我们可以通过公式 （11. 10) 求右侧 F 值，但常用的方法是进行假设检验计算，因此只需 
要知道左侧 F 值。进行//。： = H 假设检验时，我们只是简单的用总体1来代表 方差较 大的总 

体，就是说，可以随意规定哪个总体用总体1或总体2。当我们设总体1为方差较大的总体时， 
只 有在右 侧才有可能出 现讯被 拒绝的情况。虽然左侧临界值仍存在，但我们不需要知道它的 
值，因为使用方差较大的总体作为总体1的转换，往往出现在右侧。上面校车的例子中，作 
为总体1的 Mibank 汽车公司的服务级别方差较大。因此，我们可以直接进行检验。如果 Gulf ParkS 
司的服务级别方差较大，我们就得设 Gulf Park 公司为总体1，然后进行同样的统计检验。方差相 
等的两个总体的两侧检验步骤 如下： 


两个总体方差的两 侧检验 

Ho ： cr \ = cr \ 

H a : &\¥^ or \ 

设方差较大的总体为总体1。 
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检验统计屋 

P 5? 

t =-*v 

52 

I 

拒绝规则 

! I 

用检验统计量：如果 f >& /2 时，则拒绝讯 
用_值:如果 p - 值<0：,则拒绝讯 

式中， F a / 2 是基于分子自由度为 m - 1、分母自由度为？12-1的厂分布。 

我们还可以进行两个总体方差的单侧检验。同样还须利用 F 分布，其单侧拒绝区域可以表示 
出其中一个总体方差是否明显地大于或小于另一个总体方差。而且我们只须知道右侧临界值 F 
值。进行单侧检验的时候，我们建立原假设。因此拒绝区域在右侧，我们只需将 乩方差 较大的 
总体设为总体1。其步骤如下 所述： 

两个总体方差的单侧检验已经形成定式，其拒绝域总是在 F 分布的右侧。这种方法 
省去了左侧 F 分布值的计算。 


两个总体方差的单侧裣验 

Ho ： 

Ha. (A > o\ 

检验统计屋 

F =i 

拒绝规则 

用检验统 计量： 如果 F > F a 时，则拒绝队 
用 p - 值：如果 p - {!<«, 则拒绝 i/o 

: 式中， K 是基于分子自由度为1、分母自由度为 叱-1 的 F 分布。 

为了具体阐述如何利用 F 分别对两个总体方差进行单侧检验。以民意调查为例，取31位男 
性和41位女性对当前政治问题的看法作为样本，调查人员想看看样本结果是否表明对于同一政治 
问题女性偏差比男性大。根据上述的单侧检验形式，我们设女性为总体1，男性为总体2。具体检 
验步骤 如下： 


Ho ： a} ^ cr^ 
H a ： ai > <j 凑 


如果 T / o 被拒绝，则统计数据将证明对待同一政治问题上女性的看法比男性看法更不一致（方差 
更大）。 
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将女性的样本方差作为分子，男性的样本方差作为分母，故我们要采用分子自由度为 41- 
1=40,分母自由度为31 -1=30 的 F 分布进行单侧检验。取 a = 0.05, 其拒绝域基于厂。,。 5 。因 
此，拒绝规 则为： 如果 F >1.79, 则拒绝//。。 F 为两个样本方差的比例 d / d 。 

假设调査结果表明41名女性的样本方差 = 120, 31名男性的样本方差4 = 80,能得出什么适 
当的结论？ F 统计量为 


s] 120 

Ho 


= 1.50 


因为 1.50 小于1.79， 讯不能 被拒绝。就是说，样本结果不足以证明对待同一政治问题上女性的 
看法比男性看法更不一致(方差更大）。当 F =1.50 时，相应的■值为0.126。 



1. 研究人员证实在总体为正态分布的前提下 F 
分布的适用性，两个总体至少是近似正态分 
布，否则不能使用 F 分布。 

2. 第10章中检验两个总体均值是否相等时， 
必须先假定 o "?。 有人建议，在 i 检验 
之前先进行基于 F 分布的好。： <7?= W 假设 


检验，才能验证假设 cr ?= d 是否合理。但 
是，研究人员报道， f 检验发现不了的问题 
F 检验同样无济于事，因此 t 检验之前进行 
F 检验没有必要 （ 77 ie American Statistician , 
November 1990) 。 



方 法 

13. 在附录 B 的表4中找出下列的 F 分 布值： 

a . 自由度为12和10的 Fo . o5o 

b . 自由度为20和15的 Fo .025o 
C . 自由度为8和12的 Fo.oio 
d . 自由度为10和20的厂。.975。 

14. 从总体1中取出16项组成一个样本。样本方差4 = 5. 8;从总体2中取出20项组成一个样 
本，样本方差为 4 = 2. 4。取 a = 0.05, 进行下面的假设 检验： 
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得出你的结论。 

15. 考虑下面的假设 检验: 



自测题 


Ho ： al 
H a : a]> o\ 


Ho ： af= o\ 

H a ； o \ 


设 71 丨=25, 5? = 4.0, n 2 = 21, d = 8,2, 取 a =0.05, 得出你的结论。 


应用 


16. Media Metrix 和 Jupiter Communications 收集了一些有关成人与小孩每日上网时间的资料。调查 
表明，一般情况下，成人上网时间比小孩多。假设以25个成人和30个小孩为样本进行调 
查，每月上网时间的标准差分别为94分钟和58分钟。样本结果是否表明成人上网时间方差 
比小孩大？取 a = 0. 01 ( USA Today , September 14, 2000) 0 

17. 大家清楚一辆汽车每年的平均维修费用取决于这辆车的使用的时间。一位研究人员想 
知道每年的维修费用的方差是否随着汽车的使用期的增加而增加。选择25辆4年的汽 

自测题 车和25辆两年的汽车作为样本，前后两种汽车的维修费用分别为170美元和100美 
元，并分别求得两个样本标准差。 

a . 建立原假设和备择假设，检验使用期较长的汽车年均维修费用的方差较大。 

b . 取 oc =0.01， 得出你的结论，讨论结果是否正确？ 

18. 10家航天公司每份股票12个月利润的标准差为4.27，而7家汽车公司每份股票12个月利润 

的标准差为 2.27( IFeeh August 14, 2000)。检验两个方差是否相等，取 a =0.05， 得 

出你的结论。 


19. 生产过程的方差可以衡量生产过程的质量优劣。方差过大，则必须采取措施改进生产过程以 
减小方差。下面的数据是两台机器上生产出来的茶包重量，茶包重量以克计量 （ Quality Progress , 
February 1995) 0 检验两类茶包重量*的方差是否明显不同，取 a =0.05, 得出你的结论。假如 

X 

有差异，哪台机器必须改进呢？ 


机器1 



CD 光盘数据 

Ba e s 机器2 


2. 95 

3. 45 

3.50 

3.75 

3. 16 

3.20 

3, 22 

3. 38 

3.20 

3.22 

2.98 

3.45 

3. 12 




3.22 

3.30 

3.34 

3.28 

3.38 

3.34 

3.35 

3. 19 

3.30 

3. 28 

3.30 

3.20 


3.48 

3.26 

3. 33 

3.20 

3.90 

3, 36 

3.25 

3.28 

3.70 

3.34 

3. 18 

3. 35 

3.29 

3.25 

3.30 

3.27 

3.35 

3.05 

3.36. 

3. 28 

3. 16 

3.33 




20. Romac 对薪水调查资料表明，国营会计公司的普通员工的年薪方差大约为 2. 1，而老板的年薪 
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方差大约为 11. 1，以1000美元为单位。假设这份资料的调查对象是25位普通员工和25位老 
板，检验两者年薪方差是否相等。取 a = 0.05, 得出你的结论。 


21 . 



CD 光盘数据 


Downjones 


道琼斯工业股票的指数随着投资者买进买出30种股票而变化。该股票在1997年 
11月和1997年12月的前5天各抽取不同时间的指数，数据如下 （5 arroA ， Decem ¬ 
bers , 1997) : 


11月 

12月 

7 493 

8 066 

7 525 

8 209 

7 760 

7 842 

7 499 

7 943 

7 555 

7 846 

7 690 

8 071 

7 668 

8 055 

7 600 

8 159 

7 516 

7 828 

7711 

8 109 


a . 计算道琼斯工业股票的指数在这两个时期的方差。 

b . 取 q : = 0.05, 检验两个时期的总体方差是否相等，得出你的结论。 


22. 一项研究发现在湿路上汽车的刹车距离方差比在干路上明显要大。16辆速度相同的汽车先后 
在湿路和干路上进行检验。结果发现，在湿路上刹车距离的标准差为32英尺，而在干路上的 
标准差为16英尺。 

a . 取《 = 0.05,样本资料是否表明在湿路上汽车剎车距离的方差要比在干路大？ 

b . 如果统计结论表明问题出在驾车安全上，应该注意什么？ 



本章介绍了总体方差的统计推断方法。其间我们介绍了两种新的概率 分布： /分布和 F 分 
布。妒分布可应用于正态总体方差的区间估计和假设检验。 

我们还阐述了在两个总体方差的假设检验中 F 分布的运用。特别是，我们介绍了取自方差相 
等 = 的正态总体的随机样本(其容量分别为〜和 n 2 )， 样本方差比呈 f 分布，其中分 
子自由度为 71\ — 1 , 分母自由度为 U2 — lo 
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重要公 



单个总体方差的区间估计 

单个总体方差的检验统计数 

两个总体方差的统计检验 


(n - l ) s 2 一 U 一 1 ) 


2 

VI ,Ytl - a/2) 




(n ~ 1 ) s : 
al 



种充炼 


(11,7) 


( 11 . 8 ) 


(11.9) 


23. 由于人员分配问题， Gibson - Marimont 旅馆的经理想知道一年中特定季节里旅馆每天客满的房 
间数量的变化。为此，在旅馆正常运作的20天里，有关人员计算出每天客满房间的样本均值 
为290,样本标准差为30。 

a . 该总体方差的点估计是什么？ 

b . 建立以该总体方差的90%置信区间估计。 

c . 建立总体标准差的90%置信区间估计。 


24. 一般而言，股票的原始发行价格 ( IPOs ) 是折价的。标准差在折价一溢价指标中用于衡量其分 
布或变动情况。取 13 项在多伦多交易所交易的加拿大 IPOs 作为样本，其标准差为 14.95。 请 
建立折价一溢价指标的总体标准差 95% 置信区间估计。 

25. 下列是不同大城市公务旅行的曰均生活费用（ Business Traveler , June 1995) ,下面的费用包括四 
星级酒店的单人间住宿费、饮料、早餐、出租车费和其他 费用： 



CD 光盘数据 
Travel 


城市 

日均生活费用（美元) 

曼谷 

242. 87 

巴格达 

260. 93 

孟买 

139. 16 

开罗 

194. 19 

都柏林 

260. 76 

法兰克福 

355. 36 


城市 

日均生活费用（美元) 

马德里 

283.56 

墨西哥城 

212.00 

米兰 

284. 08 

巴黎 

436. 72 

里约热内卢 

240. 87 

汉城 

310.41 
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(续表) 


城市 

曰均生活费用（美元） 

城市 

曰均生活费用（美元) 

香港 

346. 32 

特拉维夫 

223. 73 

约翰内斯堡 

165. 37 

多伦多 

181.25 

利马 

250. 08 

华沙 

238. 20 

伦敦 

326. 76 

华盛顿 

250. 61 


a . 计算样本均值。 

b . 计算样本标准差。 

c . 计算总体标准差的95%置信区间。 

26. 零件方差在滚珠轴承的制造中至关重要。滚珠轴承尺寸方差过大会引起滚动失效或磨损过 
快。生产标准要求轴承尺寸以英寸计量，其最大方差为0.000 1。取15个轴承为样本，样本 
方差为 0.014 英尺。 

a . 取 a = 0.10, 判断样本方差是否超过生产要求的最大方差。 

b . 计算球形轴承总体方差的90%置信区间估计。 

21, 原计划粮食袋装量的方差必须小于或等于0.02。取41袋粮食作为样本求得其样本方差为 
0.16 盎司。取《=0.05,判断该粮食袋装方法是否超过原计划的方差标准。 

28. 市运输公司承诺严格恪守运输时间，及时为顾客服务。取22次卡车运输递送服务作为样本， 
求得其样本方差为1.5。检验是否可以拒绝 a 2 彡1，取 o ： = 0. 10。 

29. 取过去6个月中的9天作为样本，一位牙医先后接待了如下列人数的病人： 22 , 25 , 20， 
18，15, 22, 24，19和26。如果每天接待的病人人数呈正态分布，分析以上的样本数据，是 
否可以拒绝“日均病人数的方差等于10”的假设？取 a =0. 10,得出你的结论。 

30. 得到搭乘某一特定航班乘客的数量，其样本标准差为8。该总体标准差的95%置信区间估计 
为5, 86位乘客一 12. 62位乘客。 

a . 统计分析时是否可使用了容量为10或15的样本？ 

b . 如果取25次飞行作为样本求得样本标准差为 . = 8, 则总体标准差的置信区间将有什么变 
化？计算容量为25的95%的置信区间估计 （ a )。 

31. 在股票交易市场上每天都会有一组价格上涨最大的股票。某天10组纳斯达克股票的标准差为 
15.8 个百分点，而10组纽约股票交易市场股票的标准差为 7.9 个百分比点 （ rWciy , 
September 14, 2000)。检验两者的总体方差，两者交易股票的方差是否一致。取 a = 0.10，得 
出你的结论。 

32. 修完一门大学财会课程的352名学生，他们的总分的标准差为0.940。73名未修完的学生总 
分标准差为0.797。根据上述数据，判断修完与未修完的学生总分是否一样。取 o ：=0.05 (注: 
自由度 F 0 . 025 为351和72的值为1.466)。 

33. 财务部门分析两个生产部门上报的每周成本的方差。各取16份成本报告为样本，两个生产部 
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门的成本方差分别为 2. 3和 5. 4。判断两个生产部门的成本方差是否一样?取 a = 0. 10。 

34. 两种装配方法经检验后其装配时间资料具体如下。取 a =0. 10,检验两个总体方差是否相等 

方法 样本容量 样本方差 

A 31 25 

B 25 12 


案例研究空军培训 


空军电子学引导性课程采用了个人化教学方式。每位学员观看声像讲座后，自学声像教材。 
各学员独立学习直至培训结束参加考试，关心的问题是不同的学员完成该培训的不同速度。有些 
学员能够相当快地完成声像教材的学习，而其他学员需要花较长的时间甚至要加班加点才能修完 
这门课程。学得快的学员必须等学得慢学员学完这门课程后才能一起进行其他培训。 

有人建议使用计算机辅助教学。这样的话，所有的学员看同样的声像讲座，然后全都被指派 
到一个计算机终端接受进一步的培训。这样计算机可以引导学员独立操作，直至完成该课程的自 
我训练。 

为了比较这两种教学方法的优劣，刚入学的 122 名学员被随机安排到两种教学系统中去。 61 
位学员采用声像教学而另外 61 位釆用计算机辅助教学。每位学员学习的时间都记录下来，具体数 
据 如下： 


采用声像教学完成教程的时间（小时） 

76 76 77 74 76 74 74 77 72 78 73 

78 75 80 79 72 69 79 72 70 70 81 

76 78 72 82 72 73 71 70 77 78 73 

Training 79 82 65 77 79 73 ; 76 81 69 75 75 

77 79 76 78 76 76 73 77 84 74 74 

69 79 66 70 74 72 



采用计算机教学完成教程的时间(小时) 


74 

75 

77 

78 

74 

80 

73 

73 

78 

76 

76 

74 

77 

69 

76 

75 

72 

75 

72 

76 

72 

77 

73 

77 

69 

77 

75 

76 

74 

77 

75 

78 

72 

77 

78 

78 

76 

75 

76 

76 

75 

76 

80 

77 

76 

75 

73 

77 

77 

77 

79 

75 

75 

72 

82 

76 

76 

74 

72 

78 

71 
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管理报告 

1. 运用恰当的描述性统计方法，总结以下两种方法的培训时间数据，并检验上述样本数据有 
何异同？ 

2. 运用第10章的方法表述两种方法的总体均值有什么不同？讨论你的结果。 

3. 计算每种培训方法的标准差和方差。进行假设检验，判断两个总体方差是否相等，讨论你 
的结果。 

4. 关于这两种方法的不同，得出你的结论，你认为采用那一种方法较好？为什么？ 

5. 对于将来采用哪种培训方法，在决定之前还需哪些资料或者检验？ 


附录11 . 1用 Minitab 计算总体方差 

我们描述了如何应用 Minkab 计算; t 2 检验统计量和 F 检验统计量的 />- 值。这些值可用 
于单个总体方差与两个总体方差的假设检验。 


单个总体 


我们可以采用第 11.1 节的 St . Louis Metro Bus 公司例子中的数据。 C 1 列为汽车到达时间。在 
计算总体方差的假设检验所需的值之前，我们必须先算出样本方差和相应的;检验统计量 + 
/ = 10. 8。进行对假设丑。： 〆 彡4和 ft : (7 2 >4的检验，我们可以用 Minitab 计算出如下所需的右侧 
p -值： 



CD 光盘数据 
MetroBus 


步骤 1. 选择 Calc 下拉 菜单； 

步骤 2. 选择 Probability Distributions ; 

步骤 3. 选择 Chi-Square ； 

步骤 4. 弹岀 Chi-Square Distribution 对话框时: 


选择 Cumulative probability ； 


在 Degrees of freedom 中输入 “9” ； 

选择 Input constant 并在框中输入 “10. 8” ； 
在 Optional storage 行中输人 CumProb ； 


点击 OK 。 


步骤 5. 选择 Calc 下拉 菜单; 


步骤 6. 选择 Calculator 


对话框出 现后: 


在 Store results in variable 框内输人 p - 值; 


* 利用 Minitab 计算样本方差 &在第 3章中讨论，由公式 （11. 8) 给出相应的妒检验统计可相对容易地由手工计算得出。 
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在 Expression 框中输入 1 - CumProb ; 

点击 OK 。 

当拒绝域位于尸分布的右侧时，可遵循以上步骤。若假设检验是采用单侧检验（拒绝域位于 
左侧），则在步骤6中的 “ Expression ” 框中输人 “ CumProb ”。 若假设检验采用双侧检验，当;^检 
验统计量位于右侧时，则在步骤6中 “ Expression ” 框中输入 “2 * (1- CumProb ) ”；位于左侧则输入 
“2 * CumProb ” 两个总体。 


两个总体 



CD 光盘数据 


我们可以釆用第1 1. 2节中 Dullus 校车的例子中的数据。 Cl 列中是 Milbank 公司的 
汽车到达时间， C 2 列中是 GulfPark 公司的汽车到达时间。进行假设 oi 和乩: 
er ?# cri 检验时可遵循以下 Minitab 步骤： 


Dullus 步骤 1. 选择 Stat 下拉 菜单； 
步骤 2 . 选择 Basic Statistics ； 
步骤 3. 选择 2-Variances; 


步骤 4. 弹出 2- Variances 对话框时: 


选择 Samples in different columns; 


在 First 框中输入 Cl; 


在 Second 框中输入 C 2; 


点击 OK 。 


关于检验的信息可见于题为检验（正态分布）”的部分，其中检验统计量，= 2.40，/)_值= 
0. 082。上述 Minitab 方法主要描述了如何双侧检验总体方差是否相等。如果应用 Minitab 方法进行单 
侧检验，必须牢记单侧区域是双侧 p - 值所涵盖区域的一半，因此计算单侧检验的 p - 值就显得相 
对容易多。 


附录 11. 2用 Excel 计算总体方差 

我们描述了如何应用 Excel 计算/检验统计量和 F 检验统计量的 p - 值，这些 p - 值可用于 
单个总体方差与两个总体方差的假设检验。 

单个总体 

我们可以采用第 11. 1节的 St . Louis Metro Bus 公司例子中的数据。 Excel 的 worksheet 中单元格 
A 1 中列其标题为“时间”，单元格 A 2 至 All 列出了 10个到达时间。我们可以对//。：沪彡4和 
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//«: #>4进行假设检验。使用 Excel 进行该检验的最简单的方法是扩展工作表，然后利用 p - 值 
得出该结论。图 11. 6表示建立的扩展工作表，每个单元格的内容如下 所述： 

步骤 1. 在 D 2 单元格中输人4; 

步骤 2. 在 D 6 单元格中键人样本容量 公式； 

= C 0 UNT ( A 2： All ) 

步骤 3. 在 D 7 单元格中键人样本方差 公式； 

= VAR ( A 2： All ) 

步骤 4. 在 D 8 单元格中键人检验统计量 公式； 

= ( D 6-1)* D 7/ D 2 

步骤 5. 在 D 9 单元格中键人 p - 值计算公式。 

= CHIDIST ( D 8, D 6-1) 



图 11. 6 St . Louis 汽 车例子中假设检验的 Excel 的扩展工作表 
D 8 单元格包含了计算检验统计量的公式;^ 

D 9 单元格包含了计算 p - 值的公式，该 p - 值代表了基于检验统计量的右侧区域。 

如果假设检验是拒绝域位于左侧的单侧检验，则 D 9 单元格釆用 公式： =1- CHIDIST ( D 8, 
D 6-1)。 如果是双侧检验，则计算 p - 值的公 式为: = IF ( CfflDIST ( D 8 , D 6 - 1 )< 0. 5,2 * (CHIDIST 
( D 8, D 6-1)),2* (1 - CHIDIST ( D 8, D 6- l)))o 



CD 光盘数据 
MetorBus 


两个总体 



CD 光盘数据 
Dullus 


我们可以采用11.2小节中的011111^学校校车的数据。 Excel 工作表中的单元格 A 1 
键入 “ Milbank ”， 单元格 B 1 键入 “Gulf Park ”。 Milbank 的样本时间列于单元格 A 2 和单 
元格 A 26, Gulf Park 的样本时间列于单元格 B 2 至单元格 B 17。 进行假设 crl = oi 
和乩： oi 检验的步骤如下 所述： 





第 11 章关于总体方差的推断 483 


步骤 1. 选择 Tools 下拉 菜单； 

步骤 2. 选择 Data Analysis； 

步骤 3. Data Analysis 对话框出现后：选择 F-Test Two-Sample for Variances 

点击 OK 。 

步骤 4 .弹出 F-Test Two Sample for Variances 对话框时： 

在 Variable 1 Range 框中输人 A1: A26； 

在 Variable 2 Range 框中输入 B1: A17； 

选择 Labels； 

在 Alpha 框中键人 0.05; 

(注意：该 Excel 方法采用 alpha 作为单侧区域） 

选择 Output Range 并在框中键入 C1; 

点击 OK。 

输出的 P(F<f) =0,041是检验统计量 F = 2. 40时的单侧区域的概率。因此，相应的双侧值 
为 2(0. 041) =0.082。如果假设检验是单侧检验，则根据标题为 P(F<f) 中各单元格中所示的单侧 
区域可以求得相应的 p- 值。 




拟合度检验和独立性检验 


统计实例 : UNITED WAY 
12.1 多样本总体的拟合度检验 
12.2 独立性检验 

12.3 拟合度 检验: 泊松分布与正态分布 

泊松分布 
正态分布 
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UNITED WAY* 

罗切斯特，纽约州 

United Way of Greater Rochester 是一个非营利 
性组织，该组织致力于满足其服务区内7个县的居 
民的最重要的日常需求，以此来提高整个社区的生 
活质量。 

每年春季，由 United Way 红十字会举行募捐 
活动，所得资金用于200个服务机构所提供的几百 
种服务项目。这些服务机构提供的服务种类繁多， 
如身体的、精神的、社会的，而且服务对象涵盖很 
广——包含年龄、背景和经济状况各异的人。 

由于有大量自愿者参与 ， United Way of Greater 
Rochester 组织运作只花费所筹基金的80%。 

为了了解社区的慈善情况，该组织决定进行调 
查。他们安排与专业人员、服务人员和一般工作人 
员这些重点群体的谈话，从而得到关于慈善情况的 
第一手资料，根据这些资料，设计出调查问卷 。问 
卷经过预审、修订以居分发给440个人，得到323 
份有效的问卷。 

从搜集到的数据得到各种描述性统计，包括频 
数分布和交叉表。分析该数据有一项重要的内容是 
列联表和进行 X 2 独立性检验。这样的统计量检验 
的好处之一是确定管理开支观念与职业无关。 

独立性检验的假 设为： 

Ho : United Way 管理开支观念与职业无关 

H a ： United Way 管理开支观念与职业有关 


* 感谢 United Way 的市场顾问 Philip. R. Tyler 博士提 
供该统计应用的资料。 


统计调查帮助 United Way 调整其方案，以便满足其客户的需 
求。 ® Tony Freeman/PhotoEdit. 

调查中，两个问题的答案为以上的统计量提供了 
数据。其中一个问题得到了关于管理开支占资金百分 
比的数据（10%以下，11%—20% , 21%以上）。另 
一个问题是应答者的职业。 

进行 X 2 检验后（取显著性水平为5%)得到独立 
性假设被拒绝的结果，因此可以断定关于 United Way 
管理开支的观念的确与应答者的职业有关。实际上管 
理费用小于9%，但35%的反馈认为管理费用为21% 
或更多。其实管理开支的观念不准确，在这群人中， 
生产线工人、办事员、售货员和职业技术人员的管理 
开支观念要比其他人模糊。 

该调查有助于 United Way 进行相应的项目调整以 
及筹集资金活动的变动。本章你将学习如何进行如上 
所述的独立性统计检验。 
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在第11章中我们介绍了 x 2 分布在对单个总体方差进行估计和假设检验中的应用。这里，我 
们将介绍另外两种基于 X 2 分布的假设检验方法。与其他假设检验方法一样，这两种检验也是将样 
本结果与所要求的结果（即当原假设为真时成立)进行比较，假设检验的结论便是确定样本结果与 
所要求的结果的接近程度。 

下面的章节中我们介绍如何对多样本总体进行拟合度检验。接着我们将介绍利用列联表进行 
独立性检验，然后通过泊松分布和正态分布进行拟合度检验。 


12. 1多样本总体的拟合度检验 

这一节我们讨论一个总体中的每个个体被归类于几个类别中的一个组且仅被归类于这个组的 
情况。称该总体 为多样本总体 (multinomial population ) 。多样本概率分布可以看做是二项分布在三 
项或三项以上分布的推广。每次多样本检验有且只有一个结果，每次检验都视为独立的，且概率 
不变。 




多样本检验假设的原理与双样本检验一致，惟一不同的是多样本检验每次检验都有 
三个或三个以上的结果。 


比如说， Scott 市场调查公司进行市场份额的调查。在过去的一年里，公司 A 的市场份额保持 
在30%,公司 B 保持在50%，公司 C 保持在20%。最近公司 C 开发了一种新产品，并取代当前 
市场上该公司所售产品。 Scott 市场调査公司受公司 （:所 托进行调查，想检验这种新产品的推广是 
否影响市场份额。 

在这个例子中，检验总体为多样本总体，每位顾客有三种产品 选择： 公司 A 的产品、公司 B 
的产品或公司 C 的产品。由此我们可以得到一个具有三个类别的多样本总体。我们可以使用下列 
符号来代表三种 份额： 

P A = 公司 A 的市场 份额； 

/=公司 B 的市场份额； 

Pc =公司 C 的市场份额。 

Scott 市场调查公司进行了一次样本调查并计算出每个公司产品的销售比例，然后假设检验一 
下新产品是否改变了市场份额。假设公司 C 的新产品并未改变市场份额，则原假设 如下： 

Ho : Pa =0. 30, Pb = 0. 50, Pc = 0. 20 

H a ： 总体比例不变，即 P a =0.30, P b =0. 50, Pc = 0. 20 

如果样本结果导致 7/ c 被拒绝，则 Scott 市场调查公司就可以得出 结论： 新产品的引进影响了 
市场份额分布情况。 

假设该市场调查公司对200名顾客进行调査。每位顾客在三种产品中挑选一种，结果 如下： 
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_ 频率调查结果 _ 

公司 A 的产品 公司 B 的产品 公司 C 的产品 

48 98 54 

这 200 名顾客（每位顾客从三种产品中选择一种）相当于包含200次检验的多样本检 
验。 

w tow»a^s<itfaig>naioys« ： CTte i at ic»o<»^cn»iw* 1 ^ ： «cafeft^scp»^e«»g^«tf»o^^g^>&* 

我们现在来进行拟合度检验 (goodness of fit test ) ，看看由 200 名顾客组成的样本的调查结果是 
否与原假设一致。拟合度检验的目的是比较调査结果与原假设结果是否一致。因此，根据计算原 
假设 （ Pa =0.30，八= 0.50，尸(：= 0.20)，这200名顾客应购买三种产品的数量的计算结果 如下： 

预期频数结果 

公司 A 的产品 公司 B 的产品 公司 C 的产品 

200 x0.30 = 60 200 x 0. 50 = 100 200x0. 20=40 

由此我们可以看到，把样本容量与原假设的比例相乘便得到每种产品的预期购买频数。 

接下来，我们就要对调查所得的购买频数与预期的购买频数进行拟合度检验。如果两者相差 
过大，则原假设就无法成立。为了检验两者相差大小，我们可以进行如下所述的统计 检验： 

拟合度的裣验统计麗 

X 2 = (12.1) 

^ = 1 ei 

式中 fi ——第 i 种的频数调查 结果； 

6. ——第 i 种的频数预期 结果； 
k ——类别个数。 

注意： 该检验统计量是自由度为 fc -1 的 X 2 分布(所有种类的频数期望值不小于5)。 

让我们回到三个公司的市场份额问题上来。由于所有种类的频数期望值大于等于5,我们可 
以计算出 X 2 检验统计量。表 12. 1列出了 Scott 市场调查公司计算 x 2 检验统计量的情况，我们可 
以看到检验统计量 X 2 = 7 . 34。 


表 12. 1 Scott 市场调查公司计算 x 2 检验统计量的情况 


种类假设比例 

频数调查结 

频数期望值 

差 ( / - ei ) 

差的平方 

差的平方除以频数期望 


果 (/) 

“） 


(fi - ei ) 2 

值 (/‘• - ei ) 2 / ei 

公司 A 0.30 

48 

60 

-12 

144 

2.40 

公司 B 0.50 

98 

100 

~2 

4 

0. 04 

公司 C 0. 20 

54 

40 

14 

196 

4. 90 

总计 

200 




7. 34 



第 12 章拟合度检验和独立性检验489 


我们原假设该多项总体的比例为 P A = 0. 30, = 0. 50, P c = 0. 20,取显著性水平 a = 

0.05。如果频数调查结果与频数期望值相差太大，则拒绝原假设，因而在 X 2 分布右侧建立面积为 
0.05。对照尸分布表（附录 B 的表3)，我们可知自由度为 fe - l =3- l =2 时， x “5 = 5.99。 由于 
7. 34>5.99,我们拒绝原假设队。因此我们可以得出 结论： 公司 C 推出的新产品改变了当前市场 
份额结构。 

使用计算机软件包（如 Minitab 和 Excel ) 我们采用 p - 值进行拟合度计算和拟合度检验。这些 
方法的具体步骤见附录 12. 1和 12. 2。通过使用 Minitab ， 我们可知 Scott 市场调查公司的假设检验 
的值为0.025。根据拒绝规则（当值 < a 时，拒绝队），我们可知 0.025< a =0_05, 因 
此，讯被拒绝，我们得出结论，公司 C 推出的新产品改变了当前的市场份额结构。 

；? -值方法适用于拟合度检验。 

拟合度检验一般是推断位于分布右侧的单侧检验。 

虽然除此之外我们无法得出其他结论，但我们可以通过比较频数调查值和频数期望值来看看 
市场份额结构将发生什么样的变化。以公司 C 为例，我们可以发现调查值54比期望值40大，因 
为调査值是对当前市场份额进行调查的结果，可见新产品对公司 C 的市场份额发生了积极影响。 
从其他两家公司的两值比较可见，公司 C 市场份额的增加对公司 A 的影响比公司 B 大。 

对任何多项分布进行拟合度检验的一般步骤总结 如下： 

总结： 多顶分布的拟合度检验 

1. 建立原假设和备择假设。 

Ho ： 对 K 类中的每一个特定概率，总体服从多元正态分布 
H a ： 对 K 类中的每一个特定概率，总体不服从多元正态分布 

2. 选取一个任意样本，记录每个类别的频数调查值 

3. 假定原假设成立，把各个类别比例与样本容量相乘求得每个类别的频数期望值 

4. 计算检验统计量 的值： 

2= yiA-^.E 

x A & 

5. 拒绝规则：使用检验统计量：当; t 2 纟时， 拒绝 Ho ; 

使用 p - 值： 当 p - 值< a 时，拒绝 Ho 。 

式中， a 为检验时的显著性水平，自由度为 fc - l 。 
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方法 


1. 用尸拟合度检验方法检验下面的 假设： 


自测题 no ： p A = U. 4U , JD b = U. ou, p c = u. zu 

H a ： 总体比例不是执， 即只 =0.30 ， p B = 0. 50, 八 = 0.20 

取样本容量为 200 的样本，可取的类别 A 的频数为60，类别 B 的频数为120，类别 C 
的频数为20。取 a = 0.01，检验7/。是否成立。 

2. 假设一个多项总体有4个 类别： A 、 B 、 C 、 D , 原假设中各类别比例相同。 

Ho: P A = P B = P c = P D = 0 . 25 

取容量为 300 的样本，频数分 别为： A: 85, B: 95, C: 50, D: 70 。 取 a = 0,05, 检验// 0 是 
否成立。 


m 




r\ a 




应用 

3. 在前 13 周，有人调查了星期六晚上8:00到9:00各个电视节目的收视率，结果 如下： 
籠= - S > ABC 29 %， CBS 28% , NBC 25% ,其他18%。在接下的、两个星期的星期六晚上，分别 

自 SIlJ J® 

抽取300个家庭，得出收视 情况： 观看 ABC 的有95家， CBS 有70家， NBC 有89家， 
其他有46家。取 a =0.05, 检验各节目的收视率是否有变化？ 

4. M & M 巧克力饼干制造商 M & M / MARS 进行一次全囯性民意调查，调查对象逾千万，调查内容 
为喜欢什么样的饼干颜色。调查结果为 M & Ms 古铜色饼干需换成蓝色饼干。 M & M / MARS 设计 
出一本小册子《颜色》，上面列出了各种颜色饼干的喜爱程度。 

棕色 黄色 红色 橙色 绿色 蓝色 

30% 20% 20% 10% 10% 10% 

杂志 Chan Ce ( n 0 .4, 1996) 上有一份调查报告，调查目的是检验以上数据是否属实。下面是抽取 
506块饼干的调查 结果： 

棕色 黄色 红色 橙色 绿色 蓝色 

177 135 79 41 36 38 

取 a =0.05，检验各种颜色的饼干喜爱程度是否如 M & M / MARS 公司所示？ 


5. 1996年 B ⑽ iMss IFedc 的订阅者中进行调查，其中一份问卷有一 道题： “商业投资时，你选择全服 
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务性的中介公司还是打折的中介公司？”调查结果 为：有 264名答卷选择全服务性中介公司,255 
名选择佣会的中介公司，还有229位两者都选。取 x =0. 10,检验三种服务在选择上是否有差异？ 

6. 广告中，反面宣传是一种很有效的广告方式。 77 ie Journal of Advertising (Summer 1997) 上有一篇 
报道，介绍24份杂志上反面宣传广告的分析结果。下面是各杂志上反面广告的 数目： 


杂志类别 

反面广告存 

新闻评论 

20 

一般期刊 

15 

家庭类 

30 

商业/金融 

22 

妇女类 

16 

黑人杂志 

12 


取 a = 0. 10,检验以上6种杂志的反面广告所占的比重是否有差异? 

7. 广大消费者对商店橱窗陈列方式喜好 如下： 


陈列方式 A 陈列方式 B 陈列方式 C 

43 53 39 

取 a =0. 05,检验消费者对这三种陈列方式喜好是否有差异？ 

8. 航空公司的服务质量如何？某一份调查结果 显示： 非常好3%,好28%，一般45%，差24% 
(Business Week , September 11,2000 ) 0 在另一份对电信公司的调查报告中，他们选择400名成年 
人作为调查对象，结 果为： 非常好有24人，相当好有124人，一般有172人，差80人。航空 
公司的服务质量反馈结果与电信公司的结果是否有差异？取 a =0.01, 检验两家公司的评价比 
例情况是否相同？ 


12.2 独立性检验 

/分布的另一项重要应用是根据样本数据检验两个变量的独立性。以亚里桑那州的 Alber’s 
Brewery of Tucson 公司为例，具体阐述如何进行独立性检验。 Alberts 公司生产并销售三种啤酒：低 
度啤酒、中度啤酒和高度啤酒。为了分析这三种啤酒的市场份额，该公司的市场调査小组提出一 
个 问题： 男性饮酒者与女性饮酒者对三种啤酒的选择是否因性别而异?如果啤酒类别的选择与性别 
无关，则 Albeit 公司只需为所有的啤酒做同一 广告； 但是，如果啤酒类别与饮酒者性别有关，那 
么该公司就得针对不同的市场做不同的 广告： 

Ho : 啤酒选择与饮酒者性别无关（相互独立） 

H a ： 啤酒选择与饮酒者性别有关（相互不独立） 

表 12. 2可看出该例子的情形。把一个总体分为男性饮酒者和女性饮酒者两类，我们可以抽取一些 
人作为样本进行调查，让每个人在三种啤酒中进行选择。每个人被归入表格中的一个单元格中。 
比如说，一位男性选择中度酒[属于单元格（1，2)]，一位女性选择低度酒[属于单元格(2, 1)]， 
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一位女性选择高度酒[属于单元格 (2, 3)], 等等。因为我们已经列出了所有可能的啤酒类型与性 
别的组合，话句话说，列出了所有列联。表 12. 2就称为 列联表 (contingency table )。 独立性检验要 
用到列联表，因此有时也称为 列联表检验。 

假设我们任意选取150位饮酒者。当尝过每种酒后，这些人可以在其中选择。表 12. 3总结了 
调查结果。我们可以看到，为了进行独立性检验，我们必须收集每个单元格(或每个选择种类）的数 
目（或频数)。在这150人当中，有20位男性选择高度啤酒，有40位男性选择中度啤酒，等等。 

表 12. 2 啤酒选择与饮酒者性别的列联表 


性别 男 

女 


低度啤酒 

单元格（1， 1) 
单元格（2， 1) 


啤酒选择 
中度啤酒 

单元格（1， 2) 
单元格（2, 2) 


高度啤酒 

单元格 （1, 3) 
单元格 （2, 3) 


表 12.3 中的数据是这6种类别的调查所得频数。如果我们可以假设当啤酒选择与饮酒者性别 
无关(相互独立）时的标准频数（预期频数），我们就可以根据其尸分布得知调查结果与原假设是否 
有明显的差别。列联表中每个单元格的预期频数如下所述。首先我们假定啤酒选择与饮酒者性别 
无关(相互独立）的原假设成立。 


表 12. 3 啤酒选择与饮酒者性格检验的结果(预期频数) 


啤酒选择 




低度啤酒 

中度啤酒 

高度啤酒 

总计 

性别 

男 

20 

40 

20 

80 


女 

30 

30 

10 

70 


总计 

50 

70 

30 

150 


为了检验两个方差是否相互独立，必须抽取一个样本，然后使用交叉列表总结两个 
方差的相关数据。 


然后我们注意到这150位饮酒者中，总共有50位选择低度啤酒，70位选择中度啤酒，30位 
选择高度啤酒。通过分式我们可以得知有50/150 = 1/3的饮酒者选择低度啤酒，有70/150 = 7/ 
15的饮酒者选择中度啤酒，有30/150 = 1/5的饮酒者选择高度啤酒。如果独立性假设成立，则 
我们可知这些分式对男性饮酒者和女性饮酒者都成立。这样的话，根据原假设，80位男性饮酒者 
中有 （1/3)80 = 26. 67位选择低度啤酒，有 （7/15)80=37.33 位选择中度啤酒，还有 （1/5)80 = 
16位选择高度啤酒，同理可得女性饮酒者的预期频数（如表12.4)。 
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表 12.4 啤酒选择与饮酒者性别无关(相对独立）时的预期频数 


啤酒选择 




低度啤酒 

中度啤酒 

高度啤酒 

总计 

性别 

男 

26.67 

37.33 

16.00 

80 


女 

23.33 

32.67 

14. 00 

70 


总计 

50. 00 

70. 00 

30. 00 

150 


我们设^为列联表中第 i 行第/列的预期频数，据此，男性饮酒者（第一行）选择中度啤酒 
(第2列），则其预期频数为 e 12 。 根据前面所述的预期频数的算法，我们可以得出 

ei 2 = (7/15)80 = 37. 33 

请注意上式的80是所有男性饮酒者的总数（第1行的总数），70是所有选择中度啤酒者的总 
数(第2列的总数），150是整个样本的容量。由此我们可以看出 

(第1行总数 ）（ 第2行总数） 

612 ' 样本容量 


推广一下以上的公式我们可以得到计算独立性检验的列联表中的预期频数的 公式： 

独 rz 牲假设下列联表屯预期频数 

(第〖行的总数 ）（ 第/列的总数） 

eij 一 样呆容量 [ 12 . 2 ) 

根据以上公式计算男性饮酒者选择高度啤酒的频数，我们可得预期频数为 ei 3 = (80)(30)/ 
150 = 16.00,如表 12.4 所示。运用公式 （12. 2) 检验一下表 12. 4中的其他预期频数。 

比较表 12.3 中的调查所得频数和表 12.4 中的预期频数的检验方法与 12. 1节中介绍的拟合度 
检验相似。基于调查所得频数和预期频数的 X 2 计算公式 如下： 

独 rz 牲检验统计量 

x 2 = I (12.3) 

i y e y 

式中 fij ——(第〖行第 j 列）列联表中第 i 行第 y 列所示种类的调查所得 频数； 

——独立性假设下列联表中第 i 行第 y 列所示种类的预期频数。 

注意: 由于列联表有〃行 m 列，所以当所有种类的预期频数都大于等于5时，检验统计量 
;^为自由度为 （ n - l )(/ n - l ) 的;^分布。 


公式 12.3 中有两次累加，意思是列联表中所有的单元格都参与计算。 

由表 12.4 中我们可以看到，每个种类的预期频数都大等于5。因此我们可以计算检验统计量 
/，表 12. 5列出了检验统计量/的计算过程，这个检验统计 量/可 用于检验啤酒选择是否与饮 
酒者的性别相对独立(无关），我们可以看到检验统计量; ^ = 6. 13。 
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表 12. 5 检验啤酒选择是否与饮酒者性别相对独立的检验统计置 X 2 的计算过程 


性别 

啤酒 

调査所得 

预期频数 

两者之差 

差的平方 

差的平方除以预期 

男 

选择 

频数 (/ y ) 

( ey ) 

(/ «>' - e y ) 

(fa - e ij ) 2 

频数 (/ V - q) 2 /q 

男 

低度 

20 

26.67 

-6. 67 

44.49 

1.67 

男 

中度 

40 

37. 33 

2.67 

7. 13 

0. 19 

女 

髙度 

20 

16,00 

4. 00 

16,00 

L 00 

女 

低度 

30 

23.33 

6.67 

44.49 

1.91 

女 

中度 

30 

32.67 

-2.67 

7. 13 

0.22 

女 

髙度 

10 

14.00 

-4. 00 

16.00 

1. 14 



总计 150 




6. 13 


相应的妒分布的自由度可以通过行数减1乘以列数减1而得。因此，我们可以求得啤酒选择 
与饮酒者性别的独立性检验的自由度为 （2-1)(3- I )= lx 2=2 度。取 a =0.05， 附录 B 中的表 
3可査得右侧临界;^值为= 5. 99。请注意我们再次用到了右侧临界值，因为我们只有在“调 
査所得频数”和“预期频数”的差别过大导致;^值过大时推翻原假设。在上面的例子里，；^ = 
6. 13大于临界值 X §. 。 5 =5. 99。因此，我们推翻原假设，并得到 结论： 啤酒选择与饮酒者性别有关 
(相对不独立）。 


独立性检验常使用推翻域位于分布右侧的单侧检验。 


Minitab 或 Excel 计算机软件包可简化独立性检验得计算过程，并且可以提供检验所需的 p 值 
= 0.047 小于 a =0.05, 所以我们推翻原假设，得到正确 结论： 啤酒选择与饮酒者性别有关(相对 
不独立）。图 12.1 展示了 Alber’s Brewery 独立性检验的 Minitab 输出结果 。 p - 值 =0. 047，小于 
a =0.05 的区域。因此我们拒绝//。，并推断啤酒选择与性别有关。 


Expected counts are printed below observed counts 


1 

Light 

20 

26.67 

Regular 
~ 40 

37.33 

Dark 

20 

16.00 

Total 

80 

2 

30 

23.33 

30 

32.67 

10 

14.00 

70 

Total 

50 

70 

30 

150 

DF = 2, 

P-Value 

=0.047 




图 12. 1 Alber 1 s Brewery 独立性检验的 Minitab 输出结果 

虽然由检验我们无法得到进一步的结论，但我们可以比较一下调查所得频数由此得到一个关 
于啤酒选择与饮酒者性别独立性的概念。由表 12.3 和 12.4 我们可以看到，男性饮酒者选择中度 
啤酒和高度啤酒的调査所得频数比预期频数相对要高，而女性饮酒者只有选择低度啤酒时调查所 
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得频数比预期频数高。这些调查结果能让我们洞悉男女饮酒者在啤酒选择上的不同。让我们总结 
—下列联表独立性检验的 步骤： 


独 W 牲 检验： 小结 

1. 建立原假设和对立假设。 

Ho: 列方差与行方差不相对独立 
H.： 列方差与行方差不相对独立 

2. 选取样本，记录列联表每个单元格的调查所得频数。 

3. 由公式 （12. 2) 计算出每个单元格的预期频数。 

4. 由公式 （12. 3) 计算出检验统计量的值。 

5. 拒绝 法则： 使用检验统 计量： 

当/ 外 2 «时，推翻 ft ) 

使用 p - 值：当 p 值 < o ： 时，推翻丑0 

上式中 a 为显著偏差水平，列联表有 n 行 rri 列，自由度为 （ n - l )( m - l ) 



本章的 f 检验的检验统计量要求每个种 小于 5, 我们常常将相近的两个种类结合起来， 

类的预期频数为 5, 如果有 5 个种类的预期频数 以使得每个种类的预期频数都大于等于 5。 



方 法 


9. 下面的 2 x 3 列表列出了一个容量为 200 得样本的调查所得频数。取 a =( X 025, 进行一 


«^3>下 X 2 检验，检验行方差与列方差的独立性。 

自测题 


列方差 


行方差 

A 

B 

C 

P 

20 

44 

50 

Q 

30 

26 

30 


10. 下面的 3 x 3 列联表列出了容量为 240 得样本的调查所得频数。取 a =0. 05, 进行一 下/检 
验，检验行方差与列方差的独立性。 




列方差 


行方差 

A 

B 

C 

P 

20 

30 

20 

Q 

30 

60 

25 

R 

10 

15 

30 






496 商务与经济统计 


应用 

11. 1996年《商业周刊》订阅者调查问卷中有一道题是 ：“在 过去的12个月中，你出差时最常 

买的飞机票是哪一种？”下面的列联表列出了相关数据： 

自测题 


航班类别 


飞机票种类 

国内航班 

国际航班 

一等舱 

29 

22 

商务行政类 

95 

121 

全价经济舱 

518 

135 


取 a =0.05, 检验一下航班种类与飞机票种类的独立性，结论如何？ 

12. 在一次汽车业的品牌效应调查中，购买新车的顾客们对“您的新车厂家是否与过去的车的产 
家相同？”这个问题做出回答。600位回答者的调查结果显示，他们对国产车、欧洲车和亚洲 


车的钟情情况。 


生产厂家 


所买的新车与旧车 

国产车 

欧洲车 

亚洲车 

同一厂家 

125 

55 

68 

不同厂家 

140 

105 

107 


a . 假设检验一下品牌选择与厂家是否相对独立。取 a =0.05。 

b . 若两者差别很大，哪个厂家的品牌最有吸引力？ 

13. 商业与工程专业的毕业生刚开始工作时所分配的岗位根据行业的不同分类 如下: 


行业 


专业(本科） 

石油 

化学 

电子 

计算机 

商业 

30 

.15 

15 

40 

工程 

30 

30 

20 

20 

取 Q ：=0.01, 检验一下专业与行业的独立性。 



14. Marist 民意调查机构进行了 

一次主题为 

“为谁买礼物最难” 

的调查, 

,调查对象分为男女两类 

(USA Today , December 15, 1997)。 假设调查 100 名男士和 100 名女士后的数据如下 所示： 



性别 



为 买礼物最难 


男 


女 

配偶 


37 


25 

父母 


28 


31 

孩子 


7 


19 

兄弟姐妹 


8 


3 

姻亲 


4 


10 

其他亲属 


16 


12 
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取 a =0.05，检验一下送礼对象与送礼者性别的独立性。 

15. 反面宣传据说是一种有效的广告方式。 Jowr/iaZ Summer 1997) 上报道了 一项调 

查，调查内容是24份杂志上恐怖宣传广告的数量。调查结果如下 所示： 


吸引力的类型 


杂志类型 

反面宣传广告个数 

恐怖宣传广告个数 

新闻评论 

20 

10 

一般评论 

15 

11 

家庭类 

30 

19 

商业/金融 

22 

17 

妇女类 

16 

14 

黑人杂志 

12 

15 


取 ct =0.01， 根据以上数据进行独立性检验。 

16. 越来越多的商业组织开始采用网上订货的形式进行交易 。 Performance Measurement Group 调查 
了一下各行业电子订单填写正误情况，假定700份电子订单经调查所得结果如下 所示： 




行业 


订单填写情况 

制药业 

消费品 

计算机 

电信 

正确 

207 

136 

151 

178 

错误 

3 

4 

9 

12 


a . 假设检验订单填写情况与行业的独立性。取 a = 0. 05,结论如何? 

b . 哪个行业订单填写正确率最高？ 

17. 三家供应商提供了如下所示的零件质量 数据： 


部件质量 


供应商 

良好 

小缺陷 

大缺陷 

A 

90 

3 

7 

B 

170 

18 

7 

C 

135 

6 

9 


取 a =0.05, 检验一下供应商与零件质量的独立性。你的分析结果可以为采购部提供什么信息? 

18. 选民的受教育水平与他们所属党派有什么关系？下面是调查 结果： 

党派关系 


受教育水平 

民主党 

共和党 

独立党 

髙中以下 

40 

20 

10 

髙中 

30 

35 

15 

大学 

30 

45 

25 


取 a = 0.01, 检验一下选民的受教育水平与所属党派的独立性。 
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19.在辛迪加电视节目中，两大影评人 Siskel 和 Ebert 对160部影片的评价情况[评价分为 “ Pro ” 
(称赞）、 “ Con ” （贬斥）和 “ Mixed ” (褒贬 皆有） ]。 

Ebert 的评价 


Siskel 的评价 

贬斥 

褒贬皆有 

称赞 

贬斥 

24 

8 

13 

褒贬皆有 

8 

13 

11 

称赞 

10 

9 

64 


取 a =0.01， 根据以上数据进行独立性检验，得出结论。 


12.3 拟合度 检验： 泊松分布与正态分布 

在 12.1 小节中我们介绍了多项总体的拟合度检验。一般来说，拟合度检验适用于任何假设的 
概率分布。本节我们将具体阐述总体假设为泊松分布或正态概率分布时的拟合度检验。我们将看 
到，本节中的拟合度检验与检验过程中/分布的运用和 12. 1小节中的拟合度检验步骤相同。 


泊松分布 

当总体服从泊松分布时，我们来阐述一下这时的拟合度检验。我们以佛罗里达州拉哈西的 
Dubek 食品市场顾客光临情况作为例子。由于最近的员工分配问题， Dubek 的经理请当地的咨询 
公司协助进行结算通道人员配置规划。查访了结算通道的运营情况后，该咨询公司提供了一项人 
员配置规划的建议。该配置方法基于对待顾客队伍的数学分析，只有在一段特定时间内到达的顾 
客数服从泊松分布时才适用。就是说，决定这项人员配置方法是否釆用之前，还得收集一下顾客 
到达情况的资料，然后进行一下统计检验看顾客到达数是否服从泊松分布。 

我们用 5 分钟进入商店的顾客数来规定到达的顾 客数， 然后我们可以进行如下 假设： 


表 12. 6 128个5分钟时间段 

顾客到达数调查结果 


Ho ： 每 5 分钟内进入商店的顾客数呈泊松分布 
H a ： 每 5 分钟内进人商店的顾客数不呈泊松分布 


顾客到达数 调查所得频数 


0 

1 

2 

3 

4 

5 

6 

7 

8 
9 


2 

8 

10 

12 

18 

22 

22 

16 

12 

6 

总计 128 


如果取样检验后执不能被推翻，则 Dubek 就可以釆用咨询公 
司提议的人员配置方法。如果丑。被推翻，则顾客光顾情况不呈泊 
松分布， Dubek 就必须考虑其他人员配置方法了。 

为了检验工作日上午顾客到达数是否呈泊松分布，一名商店雇 
员随机抽取了 3 周，以每个工作日上午共 128 个 5 分钟时间段的顾 
客数为样本，该雇员记下了每 5 分钟到达的顾客数。总结数据时， 
他归结出没有顾客到达的 5 分钟时间段的个数，有一位顾客到达的 
5 分钟时间段的个数，有 2 位顾客到达的 5 分钟时间段的个数…… 
具体数据可见表 12. 6。 
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表 12. 6给出了 10个类别的调査频数。我们要用拟合度检验判断一下这个由128个时间段组 
成的样本是否说明了原假设成立。为了进行拟合优度检验，我们必须考虑原假设成立时10个类的 
期望频数。即如果顾客到达数呈泊松分布，这时候“没有顾客”、“1个顾客”、“2个顾客”……各类别 
的时间段个数的期望值是多少呢？ 

我们在第5章首次引人的泊松概率函数为 

/0 O=f (12.4) 

在该函数中，代表每个5分钟时间段内到达的顾客数的调查值， / U ) 代表在一个5分钟时间段 
内到达的顾客数为％的概率。 

根据公式 （12. 4) 计算泊松概率之前，我们必须知道 5 分钟时间段内到达顾客数的均值的估 
值。表 12.6 中得样本均值给出了该估值。我们可以看到有2个时间段没有顾客、8个时间段有一 
个顾客等等，因此 128 个时间段的到达顾客总数为 0 x 2 + 1 x 8 + 2 x 10 + …+9 x 6 = 640。 由时间 
段数为 128, 到达顾客总数为 640, 我们可得每个时间段的顾客平均数 a 为 640/128 =5。 根据这 
个泊松概率分布均值， Dubek 食品市场的泊松概率函数的估值为 

/U)= ^T ( 12 . 5 ) 

可代人不同的 x 值，计算出每个类别的概率。这些概率值可见表 12.7( 也可在附录 B 的表 
7中找到）。比如说，5分钟时间段内没有顾客到达（顾客数为 0) 的概率为/(0) =0.0067, 5分钟 
时间段内有一个顾客到达的概率为/( I ) =0.0337,等等。如 12.1 小节所述，每个类别的期望频 
数等于概率乘以样本容量。举例说，没有顾客 (0 个顾客）的时间段个数的期望值 0.0067 x 128 = 
0. 857 6。有一个顾客时间段个数的期望值为 0. 033 7 x 128 =4. 313 6。 

在我们运用惯例的/计算方法比较调査频数和期望频数之前，我们注意到表 12. 7有4个种 


表 12. 7 Dubek 顾客到达的期望频数(设为=5的泊松分布) 


到达顾客数 

泊松概率 f( X) 

5分钟时间段内顾客数为 
x 的时段个数期望值，即 

128/ U ) 

0 

0. 006 7 

0. 857 6 

1 

0. 033 7 

4.313 6 

2 

0. 084 2 

10. 777 6 

3 

0, 140 4 

17,971 2 

4 

0. 175 5 

22. 464 0 

5 

0. 175 5 

22. 464 0 

6 

0. 146 2 

18.713 6 

7 

0. 104 4 

13. 363 2 

8 

0. 065 3 

8.358 4 

9 

0. 036 3 

4. 646 4 

10 或以上 

0.0318 

4. 070 4 

总计 128.000 0 
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类的期望频数值小于5,这就违反了 ^分布的使用条件。然而，我们可以合并相邻的种类以满足 
“期望频数值至少等于5” 的条件。就是说，我们可以把 “0” 和“1”归为一类，“9”和“10” 归为 
另一类。这样的话，每个种类都能满足“期望频数至少等于5” 的条件。表 12. 8是合并以后的调 
查频数和期望频数。 

与 12.1 小节介绍过的一样，拟合度检验重点在于检验调查频数与期望频数的差 ( y :- ei ) 。因 

此根据表 12.8 的调查频数和期望频数，我们可以计算出^检验统计量计算妒 

，- =1 ei 

检验统计量的值为;^ = 10. 976 6。 


表 12. 8 合并后的 Dubek 顾客到达数的调查频数和期望频数 


顾客到达数 

调查频数 (/) 

期望频数（的） 

0或1 

10 

5. 171 2 

2 

10 

10. 777 6 

3 

12 

17.971 2 

4 

18 

22. 464 0 

5 

22 

22. 464 0 

6 

22 

18.7136 

7 

16 

13.363 2 

8 

12 

8. 358 4 

9或大于9 

6 

8.716 8 


总计 128 

128. 000 0 


总的来说，拟合度检验的/分布自由度为 A - p - l ， A 为种类个数，/>为由样本数据得到的总 
体参数。对于我们所研究的泊松分布拟合度检验来说由表 12.9 可知4 = 9,泊松分布的均值；>：= 
1。因此， Dubek 食品市场例子中的分布的自由度为左- p - 1 = / c -2 = 9 -2 = 7。 


表 12. 9 Dubek 食品市场例子中的检验统计量 x 2 的计算过程 


顾客到达数 U ) 

调查频数 (/) 

期望频数（^) 

差 (/< - A ) 

差的平方(/-^) 2 

差的平方除以期望 

频数 （/- ei ) 2 /c 

0或1 

10 

5. 1712 

4, 828 8 

23.317 3 

4. 509 1 

2 

10 

10. 777 6 

-0. 777 6 

0. 604 7 

0. 056 1 

3 

12 

17.971 2 

-5.9712 

35. 655 2 

1.984 0 

4 

18 

22. 464 0 

-4.464 0 

19. 927 3 

0. 887 1 

5 

22 

22. 464 0 

-0,464 0 

0.215 3 

0. 009 6 

6 

22 

18.7136 

3.286 4 

10. 800 4 

0. 577 1 

7 

16 

13.363 2 

2. 636 8 

6. 952 7 

0. 520 3 

8 

12 

8, 358 4 

3.641 6 

13.261 3 

1.586 6 

9或大于9 

6 

8.7168 

-2.7168 

7.381 0 

0. 846 8 

总计 128 

128. 000 0 
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假定我们现在对“顾客到达数的概率分布呈泊松分布”的原假设进行检验，取《=0.05。由 
附录 B 的表3可知自由度为7时， x §.05 = 14.07。 如果进行的是单侧检验，当;^>妒„时，我们将 
推翻执。 

回顾前面的计算结果，我们可以得知 x 2 = 10. 976 6。这个值小于临界值14.07。因此我们不 
能推翻原假设。就是说，经分析，工作日上午顾客到达数呈泊松概率分布的假设不能被推翻。这 
个统计结果也表明 Dubek 的经理可以采用咨询公司提议的工作日早上的人员配置方法。 

附录 12. 1和 12.2 是应用 Minitab 和 Excel 进行以上拟合度检验的详细步骤。应用 Minitab 
时， />- 值=0.14。因为 /? -值>«=0. 05,所以我们不能推翻总体呈泊松分布的原假设。泊松分布 
的拟合度检验的步骤总结 如下： 


汨松分布的拟台度 验验： 小结 

1. 建立原假设和对立假设。 


Ho : 总体呈泊松概率分布 
//a ： 总体不呈泊松概率分布 


2. 随机抽取一个样本， 然后: 


a . 记录每个泊松随机变量的调查频数 

b . 计算频数均值 / t 。 

3. 计算每个泊松随机变量的期望频数，将样本容量与泊松随机变量的泊松概率相乘。若有 
些变量值小于5,合并相临的种类，必要的话可以减少种类个数。 

4. 计算检验统计量的值 



V ( fi - et ) 2 



5. 拒绝 法则： 

使用检验统 计量： 当妒>；^时，推翻 // o ; 

使用 值： 当值 < a 时，推 翻乩。 

式中， a 为显著性水平，自由度为 / c -2。 


正态分布 

正态概率分布的拟合度检验同样基于妒分布的运用，与我们讨论过的泊松分布的步骤相似。 
即假设总体呈正态分布，然后将样本数据中几个种类的调查频数与预期频数进行比较。因为正态 
概率分布是延续性的，因此我们必须改变种类的定义方式和预期频数的计算方法。为此，我们来看一 
下 Chemline 公司的求职检测数据（表 12. 10) ，接着我们将具体阐述正态概率分布的拟合度检验。 

Chemline 公司每年为遍布全美的4家分工司招聘大约400名雇员。人事部的董事长想知道检 
测分数总体是否呈正态分布。如果是的话，就可以根据这样的分布评估出具体的分数。就是说可 
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表 12. 10 Chemline 公司随机抽以很快地算出前20%人的分数，后40%人的分数等等。为此，我 
取50位求职者的资质检测分数们必须检测原假设，看看检测分数具体是否呈正态概率分布。 

我们先运用表 12. 10中的数据算出原假设必需的均值、估值和 
正态分布的标准差估值。我们用样本均 i 值和样本标准差 S 作为正 
态分布的均值、估值和标准差估值。计算过程 如下： 

Txi _ 3 421 r 
x - -- — = 68. 42 


71 

66 

61 

65 

54 

93 

60 

86 

70 

70 

73 

73 

55 

63 

56 

62 

76 

54 

82 

79 

76 

68 

53 

58 

85 

80 

56 

61 

61 

64 

65 

62 

90 

69 

76 

79 

77 

54 

64 

74 

65 

65 

61 

56 

63 

80 

56 

71 

79 

84 






设： 


71 


50 


S = 


Kxi - x ) 2 二 5 310.036 9 = 1Q 41 
n -1 V 49 


运用以上数值，我们可以如下陈述求职者检测分数分布的假 


Ho ： 检测分数总体呈正态分布（均值为 68. 42,标准差为 10. 41) 

H “ 检测分数总体不呈正态分布（均值为 68. 42,标准差为 10.41 的正态分布） 


所假设的正态分布如图 12. 2所示。 



均值 68. 42 

图 12. 2 Chemline 公司求职者检测分数的假设正态分布图 


现在让我们考虑一下正态分布拟合度检验中定义种类的方法。泊松分布检验时，在其离散概 
率分布中，各种类很容易通过顾客到达数来定义，如0，1，2,等等。然而，在延续性正态分布 
中，我们要运用不同的方法定义种类。我们需要通过检测分数的区间来定义种类。 

我们可以回想起“每个区间或种类的期望频数至少要等于5” 的前提，所以我们定义检测分 
数的种类时也必须使每个种类的期望频数至少为5。取容量为50的样本，定义方法之一是把正态 
分布分为10个概率相等的区间（见图12.3)。由于样本容量为50,每个种类（或区间）可得5个结 
果，这样就满足了 “期望频数”的前提条件。 
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根据连续概率分布，建立的区间应满 足:每 一区间都有一个期望频率为 5 或更多的范围。 

我们再研究一下计算种类临界值的步骤。假设总体呈正态分布，我们可以根据标准正态概率 
表来确定这些临界值。首先看一下较低的10%检测分数。由附录 B 中的表1我们可以找到该检 
测分数的 z 值为-1.28，因此检测分数 ；c = 68. 42 -1.28 x 10. 41 =55. 10就是较低的10%分数的 
切断临界值。求较低20%的分数，我们找到之=-0.84，则 ；c = 68. 42-0.84 x 10. 41 =59.68， 

同理对整个正态分布，我们可以求得以下检测分 数值： 

较低 10% 68. 42- 1.28(10.41) =55. 10 

较低20% 68. 42 - 0. 84( 10,41 )= 59. 68 

较低30% 68. 42-0. 52(10. 41) =63.01 

较低40% 68. 42-0. 25(10.41) =65. 82 

中等分数 68. 42 + 0 (10.41) =68. 42 

较高40% 68. 42+0. 25(10. 41) =71.02 

较高30% 68. 42+0. 52(10.41) =73. 83 

较高20% 68.42+0. 84(10. 41) =77. 16 

较高 10% 68.42 + 1.28(10.41) =81.74 

这些区间切断临界值可见图12.3。 



图 12. 3 Chemline 公司例子中切断为10个概率相等的区间的正态概率分布 


注意： 每个区间的概率皆为10检测分数（考试分数）的种类或区间定义好了，每个种类的预 
期频数为5也知道了，现在我们可以回到表 12. 10的样本数据中确定一下各种类的调查频数。之 
后我们可得结果如表 12. 11所示。 

有了表 12.11 的结果，接下来的拟合优度检验的计算过程与以前一模一样。就是说，我们计 
算出一个; T 2 值然后比较调査频数和预期频数。妒检验统计量的必要计算步骤见表 12. 12,我们可 
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表 12. 11 Chemline 公司求职者检测分数的调查频数和预期频数 


检测分数区间 


调查频数 （/) 

预期频数 U ) 

小于 55. 10 


5 

5 

55. 10—59. 68 


5 

5 

59. 68~ 63. 01 


9 

5 

63. 01—65. 82 


6 

5 

65. 82—68. 42 


2 

5 

68.42—71.02 


5 

5 

71.02—73.83 


2 

5 

73. 83—77. 16 


5 

5 

77. 16—81.74 


5 

5 

8 1.74 —结束 


6 

5 


总计 

50 

50 


表 12. 12 Chemline 公司求职者的 x 2 检验统计置的计算步骤 


检测分数区间 

调查频数 (/} 

预期频数 

差 l/i - 

差的平方 

差的平方除以 







预期频数 



* 




(fi — € i ) 2 / et 

小于 55. 10 


5 

5 

0 

0 

0.0 

55. 10—59. 68 


5 

5 

0 

0 

0,0 

59. 68—63,01 


9 

5 

4 

16 

3.2 

63. 01—65. 82 


6 

5 

1 

1 

0.2 

65. 82— <58. 42 


2 

5 

- 3 

9 

1.8 

68. 42—71.02 


5 

5 

0 

0 

0.0 

71.02—73.83 


2 

5 

一 3 

9 

1.8 

73. 83—77. 16 


5 

5 

0 

0 

0.0 

77. 16—81.74 


5 

5 

0 

0 

0.0 

81. 74—结束 


6 

5 

1 

1 

0.2 


总计 

50 

50 



7.2 


以看到检验统计量/ =7. 2。 

为了确 定/值 7.2 是否是以推翻原假设汛，我们需要参照相应的/概率分布表。根据拟合 
度检验自由度的计算规则，我们可求得自由度为- 2-1=7，[种类个数友= 10，由 
样本数据估计而得参数个数 p =2( 均值和标准差）]。取 a =0.10 进行假设检验，我们可得右侧推 
翻域的临 界值) du ) = 12. 017。因为7.2<12.017,所以原假设不能被推翻。 


估计正态分布的两个参数值将导致;^检验的自由度中的两类自由度值的减少。 
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对 Chemline 检测分数是否呈均值为 68. 42标准差为 10. 41的正态分布进行假设检验时，我们 
也可以使用 /)_ 值。通过 Minitab ， 我们可知 /)_ 值为0.408。 p - 值 > a =0. 05,所以我们不能推 
翻 ft 。 正态分布拟合度检验过程总结 如下： 

E 态分布拟合度 裣验： 小结 

L 建立原假设和对立假设。 

Ho ： 总体呈正态概率分布 
总体不呈正态概率分布 

2. 选取一个随机样本， 然后： 

a . 算样本均值和样本标 准差； 

b . 定义各值的区间使每个区间的预期频数至少等于5,建议建立概率相等的 区间； 

c . 记录每个定义区间的调查频数。 

3. 计算步骤 2( b ) 定义的每个区间的预期频数，将样本容量与正态随机变量的概率相乘。 

4. 计算检验统计量的值 X 2 = 

i = i ei 

5. 拒绝 法则： 

使用检验统 计量：当妒 >乂〖时，拒绝执； 

使用值： 当_值<0£时，拒绝 // o 。 

式中，《为显著偏差水平，自由度为 U -3)。 



方法 

20. 每个时间段的发生次数与调查频数如下所示，取 a = 0.05, 进行一下拟合度检验，看 

看以下数据是否符合泊松分布。 

自测题 

发生次数 调查频数 

0 39 

1 30 

2 30 

3 18 

4 3 


21. 下列数据来自正态分布，用 a =0.025 并做拟合度检验来检验这个假设。 

自测题 
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17 

23 

22 

24 

19 

21 

18 

15 

24 

23 


23 

18 

22 

20 

13 

23 

43 

29 

27 

26 


11 

21 

18 

20 

21 

30 

28 

33 

23 

29 


应用 


22. 在一个指定的城市，每天的车祸发生次数服从泊松分布。去年中的80天的样本数据如下，这 
些数据是否能说明每天车祸发生次数服从泊松分布？取 a =0.05。 


车祸次数 
0 
1 
2 

3 

4 


观察频数（天) 
34 
25 
11 
7 
3 


23. 一家公司交换机在一分钟时间段内打入的电话数被认为服从泊松分布，利用 a = 0.10 和下列 


数据检验打入电话数服从泊松分布的假设。 

一分钟时间段内打入的电话数 观察频数 

0 15 

1 31 

2 20 

3 15 

4 13 

5 4 

6 _ 1 _ 

总计 100 


24. 某产品的每周需求量服从正态分布。利用拟合度检验和下列数据检验假设，取 a =0. 10,样 
本均值为24.5,样本标准差为3。 


18 

20 

22 

27 

22 

25 

22 

27 

25 

24 

26 

23 

20 

24 

26 

27 

25 

19 

21 

25 

26 

25 

31 

29 

25 

25 

28 

26 

28 

24 


25. 利用 a = 0.01, 做拟合度检验，判断下列样本是否来自正态分布。 

55 86 94 58 55 95 55 52 69 95 90 65 87 50 56 

55 57 98 58 79 92 62 59 88 65 
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在完成了拟合度计算后，建立数据的直方图，该直方图是否支持拟合度检验所得到的结论? 
(注： 3 c = 71, s = 17。 ） 



本章中，我们介绍了拟合度检验和独立性检验，两者都基于;分布。拟合度检验的目的是判 
断假设的概率分布是否可作为研究总体特征的模型。进行拟合度检验计算，包括当假设的概率分 
布为真时，将由样本观察到的频数与期望频数进行比较。 /分 布用来判断观察频数和期望频数之 
差是否大到可据此拒绝假设的概率分布。我们介绍了多项、泊松和正态分布的拟合度检验。 

两个随机变量独立性检验是多项总体拟合度检验方法的推广。列联表确定观察频数和期望频 
数，然后计算 /值。 若观察频数和期望频数之差较大， 由妒值 可导致拒绝独立性零假设。 


术 语碑义 


多样本 总体： 在几个类别中，每一元素被分配到且只能被分配到若干总体中的某一个。多项概率 

分布将由两个类别得到的二项分布推广到三个以上类别。 

拟合度 检验： 为确定是否拒绝总体的假设概率分布所进行的统计检验。 

列 联表： 在独立性检验中，用于汇总观察频数与期望频数的表格。 


囔要公 



拟合度的检验统计量 




V (fj-ei)' 


独立性假设下列联表中预期频数 


(第〖行的总数 ）（ 第/列的总数） 
样本容量 


独立性检验统计置 


X 」 




(fu-ea)' 

% 


( 12 . 1 ) 


( 12 . 2 ) 


(12.3) 
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26.在配给销售定额时，市场经理做了每个销售地区潜在订货是相同的假设。由200次销售组成 
的样本如下，经理的假设能否被拒绝？取 a = 0. 05。 


销售地区 

I n in iv 

60 45 59 36 

27. 有7%的互助基金投资表认为公司股票“非常安全”，58%认为“比较安全”， 24%的人认为 
“不太安全”，4%的认为“根本不安全”，7%的人“不确定”。《商业周刊》所做的一次 
哈里斯民意调查 (Harris Poll ) 问到529名互助基金投资表关于他们如何评价公司债券的安全性 
问题。回答 如下： 


安全评价 

频数 

非常安全 

48 

比较安全 

323 

不太安全 

79 

根本不安全 

16 

不确定 

63 

总计 

529 


互助基金投资表对于公司债券的态度和他们对公司股票的态度是否不同？若 a = 0.01, 用统计 
检验支持你的结论。 

28. 一个社区公园将不久后开放。140人组成的样本说明他们最喜欢什么时候游园，结果 如下： 


工作曰 

周六 

周日 

节假曰 

20 

20 

40 

60 


在制定员工配给计划时，公园主管是否应基于每天的游园人数来制定计划？取 a = 0.05, 用统 
计检验支持你的结论。 

29. 某地区交通机构在关注一条公共汽车线路的乘车人数。在确定这条线路时，假设周一到周五 
每天下午乘车人数都相同。利用以下数据，取 a =0.05, 检验该交通机构的假设是否正确。 


乘车日期 人数 

周一 13 

周二 16 

周三 28 

周四 17 

周五 


16 
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30. 《计算机世界》每年工作满意程度的调查结果表明，28%的信息系统 ( IS ) 管理者对其工作非常 
满意，46%比较满意，12%无所谓满意与否，10%有些不满，4%非常不满。 （ Computerworld , 
May 26, 1997) 假设500名计算机程序员组成的样本产生如下 结果： 


类别 

回答人数 

非常满意 

105 

比较满意 

235 

无所谓满意与否 

55 

有些不满 

90 

非常不满 

15 


取 a =0.05 检验计算机程序员工作满意度与 IS 管理者的工作满意度是否不同。 
31. 一个零件样本给出按生产班次划分的零件质量的数据 如下： 


班次 

正品个数 

次品个数 

第一 

368 

32 

■ 

285 

15 

第三 

176 

24 


利用 a =0. 05检验零件质量与生产班次的独立性，你有何结论。 

32. 1996年 Wall Street Journal Subscriber Study 显示了关于订户职业的数据，东部版和西部版订户对 
应的样本结果如下 所示： 


地区 


职业 

东部版 

西部版 

全职 

1105 

574 

临时工 

31 

15 

自我雇用/咨询者 

229 

186 

无职业 

485 

344 


取 ct =0.05, 检验职业与地区是独立的假设，你有何结论？ 

33. 某贷款机构提供了关于四名贷款官员批准的贷款数据如下，利用 ct =0.05 检验批准贷款的决 
定与审核贷款申请的贷款官员是否独立。 


贷款批准决定 


贷款官员 

批准 

拒绝 

Miller 

24 

16 

McMahon 

17 

13 

Games 

35 

15 

Runk 

11 

9 


34. —项全国性调查提供了 20至29岁之间的男女婚姻情况的统计数据。由350名男士和400名 
女士构成的样本结果如下，这些数据由《美国当今人口报告》出版 （ 77 ie Statistical Abstract of 
the United States , 1999)。 
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婚姻状况 


性别 

未婚 

已婚 

离异 

男士 

234 

106 

10 

女士 

216 

168 

16 


a . 取 o :=0.01， 检验婚姻状况和性别的独立性，你的结论如何？ 

b . 计算男、女士每个婚姻状况列中的比率。 

35. 以下是一个关于消费品和银行业的100家公司的行业类型与市盈 率表: 


行 

业 


市盈率 



5—9 

10—14 

15—19 

20—24 

25—29 

总计 

消费品 

4 

10 

18 

10 

8 

50 

银行业 

14 

14 

12 

6 

4 

50 

总计 

18 

24 

30 

16 

12 

100 


这些数据是否说明行业类型与市盈率有关？当 a =0.05 时，用统计检验支持你的结论。 

36. 以下数据是关于弗吉尼亚州一个城市型县和一个乡村型县的紧急救护车呼叫次数的数据： 

星期 



曰 

一 

二 

— 

四 

五 

六 

总计 

城市型 

61 

48 

50 

55 

63 

73 

43 

393 

县乡村型 

7 

9 

16 

13 

9 

14 

10 

78 

总计 

68 

57 

66 

68 

72 

87 

53 

471 


用 a =0. 05进行独立性检验，你的结论如何? 

37. —大学课程期末考试的随机样本 如下： 


55 

85 

72 

99 

48 

71 

88 

70 

59 

98 

80 

74 

93 

85 

74 

82 

90 

71 

83 

60 

95 

77 

84 

73 

63 

72 

95 

79 

51 

85 

76 

81 

78 

65 

75 

87 

86 

70 

80 

64 







用 a =0,05检验分数的总体分布为正态分布的假设是否被拒绝。 

38. 加利福尼亚州四个大都会地区的办公室使用率报告如下，下列数据能否说明办公室的空闲与 
地区是独立的？取 a =0. 05,你有何结论？ 


占用状态 

洛杉矶 

圣地亚哥 

旧金山 

圣何塞 

占用 

160 

116 

192 

174 

空闲 

40 

34 

33 

26 


39. 一销售员每天打四个销售 电话。 由100天组成的一个样本，给出如下所示的销售量 频数: 
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销售数量 
0 
1 
2 

3 

4 

总计 


观察频数（天) 
30 
32 
25 
10 


100 


结果显示，销售额是销售电话的30%，假定独立销售电话，每天的销售量应符合二项分布， 
第5章给出的二项概率公 式为： 


式中，假设总体有二项分布，?! =4, p = 0. 30,且 x =0, 1，2，3，4。 

a . 利用二项概率函数，对 x =0, 1，2, 3和4,计算期望频数。若有必要可合并类别以使每 
类期望频数不少于5的条件成立。 

b . 用拟合度检验决定二项分布的假设是否能被拒绝？取 a =0.05。 因为，二项分布从样本数 
据估出时没有限制，所以当 A 是表中数据时的自由度是 k — U 


案例研究两党议程变更 



CD 光盘数据 
NYReform 


在 Zogby 国际公司为“ Democrat and Chronicle ” 进行的一次研究中，对700多位纽 
约人迸行民意测验，判断纽约州政府是否正常运作。被调查者回答的问题涉及州立法 
机关经费缩减、党客限制和立法机关任期限制，及州公民是否能将事情直接交给州大 
选 （Democrat and Chronicle , December 7, 1997), 涉及从人口到政治的几项改革提案获得 


广泛支持。 

假定继而进行了一次对居住在纽约州西部地区的100个人的抽样调查。几位被调查 
的党派（民主党、独立党、共和党）人士，及他们对下列三个问题的回答被记录下来。 


1. 因为每天的州预算都滞后，是否该缩减立法经费? 
是__否_ 

2. 是否对党客加以更多限制？ 

是_否_ 

3. 是否该有要求立法机关服务固定年数的任期限制? 
是 否 


回答用1代表“是”，2代表“否”。所有数据都在 CD 光盘的 NYReform 文件中。 
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管理报告 

1. 用描述统计汇总该研究中的数据。对调查中三个问题中的每一个问题，其答案（是与否）与 
党派类别之间的独立性，你有何初步结论？ 

2. 对问题1,检验回答(是与否）与党派的独立性，取《 = 0.05。 

3. 对问题2,检验回答(是与否）与党派的独立性，取《=0.05。 

4. 对问题3,检验回答(是与否）与党派的独立性，取《 = 0.05。 

5. 对于改革所有政治方针，是否得到广泛支持?试解释之。 

附录 12. 1用 Minitab 进行拟合度检验和独立性检验 

我们讲述如何将 Minitab 用于拟合度检验和独立性检验。 

拟合度检验 

Minitab 方法可以用于 12.1 节中的多项分布的拟合度检验，泊松分布和 12.3 节中的正态分 
布。使用者要获得可观察频率，计算期望频率，并将可观察频率和期望频率输入到 Minitab 工作表 
中。 C 1 栏中录入观察频率，并包括观察频率， C 2 栏中录入期望频数并包括期望频率。用 12. 1节 
中的 Scott 市场调查研究的例子计算，打开 Minitab 工作表，输入可观察频率 48. 98和54到 C 1 栏 

中，输入期望频率60, 100,40到 C 2 栏中。拟合度检验的步骤 如下： 

步骤 1 . 选择 Calc 下拉 菜单； 

步骤 2 .选择 Calculator 选项； 

步骤 3 •出现 Calculator 对话框后，在 Store result in variable 栏输入 ChiSquare ; 

在 Expression 栏输入 Sum((Cl - C 2)**2/ C 2), 点击 OK; 

步骤 4. 选择 Calc 下拉菜单； 

步骤 5 •选择 Probability Distributions ; 

步骤 6. 选择 Chi-Square ； 

步骤 7. 当 Chi-Square Distribution 对话框出现后，选择 Cumulative Probability ， 在 Degrees 
of freedom 栏中输入 CumProb ，点击 OK ; 

步骤 8. 选择 Calc 下拉 菜单； 

步骤 9. 选择 Calculator ,当 Calculator 对话框出现后，在 Store results in variable box 中输入 
- 值，在 Expression 框中输入 1- CumProb , 点击 OK 。 
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独立性检验 

我们从 12. 2节中建一个新的 Minitab 工作表开始，将 Alber ’ s 酿酒厂样本的观察频数数据分别 
是录入到第1，2, 3列，于是，我们在 C 1 中输入了对应于轻度啤酒偏好的观察频数 (20 和30)， 
在 C 2 中输人了对应于中度啤酒偏好的观察频数 (40 和30)，在 C 3 中输入了相对于高度啤酒偏好 
的观察频数 (20 和10)。独立性检验的 Minitab 步骤 如下： 


步骤 1. 选择 Stat 下拉 菜单； 

步骤 2 . 选择 Tables 下拉 菜单； 

步骤 3 •选择 Chi-Square Test ； 

步骤 4 .当 Chi-Square Test 对话框出现后，在 Columns containing the table 栏输入 Cl - C 3, 点 
击 OK 。 

p -值是 0.047， 当 p - 值 <a =0.05 时，拒绝执。 

附录 12 . 2用 Excel 进行拟合度检验和独立性检验 

我们介绍如何用 Excel 表进行拟合度检验和独立性检验。 

拟合度检验 

Excel 方法可被用于 12. 1 节中的多项分布的拟合度检验，如泊松分布和 12. 3 节中的正态分 
布。使用者要获得观察频率，计算期望频率，在 Excel 工作表中输人观察和期望频率。用 12. 1 节 
中的 Soctt 市场调查例子，打开 Excel 工作表，在单元格 A1 中输入观察频数，在单元格 B1 中输 
人期望频数。然后，在单元格 A2:A4 中输入观察频率 48, 98, 54, 在单元格 B2: B4 中输入期望频 
率 60,100,40。 

/检验统计和 p - 值可以计算 如下： 

步骤 1 . 在单元格 C 2 中输入下列 公式； 

= (A2-B2”2/B2 

步骤 2. 把单元格 C2 复制到单元格 C3: C4; 

步骤 3. 计算单元格 C 5 中的;^的值； 


= SUM ( C 2： C 4) 


步骤 4. 计算单元格 C 6 中的 P 值; 


= CHIDIST ( C 5,2) 
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在步骤4中，输入的2是检验的自由度，在 Scott 市场调査举例中 ， fc = 3 种类中的多项分布 
拟合度检验有 fc - l =2 的自由度。这个方法可扩展到 12.3 节中的泊松和正态分布的拟合度检 
验。步骤4中的 CHIDIST 功能包括了适合检验的自由度。 


独立性检验 

用 Excel 进行独立性检验要求使用者获得观察频数，并计算其期望的频数。 Excel 工作表中有 
两个表，一个是观察频数，另一个是期望频数。图12.4表示了在12.2节中入11^心啤酒厂例子的 
Excel 工作表。将观察值键入单元格 B 4: D 5, 期望值在单元格 Bll : D 12。 独立性检验的 p - 值可由 
单元格 C 2 中的函数 获得： = CHITEST ( B 4: D 5, Bll : D 12) 



图 12. 4 Albert 啤酒厂独立性检验的 Excel 扩展表 
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BURKE 市场调研公司* 

辛辛那提，俄亥俄州 



Burke 市场调研有限公司是在工业领域最 
富有经验的市场调研公司之一。 Burke 每天都 
有比世界其他调研公司更多的建议或更多的项 
目。因为现代技术的支持， Burke 能够提供广 
泛的市场研究能力，可以对几乎所有市场问题 
提供答案。 

在一项研究中， Burke 受一家公司雇用对 
儿童干谷类食品潜在需要的新品种进行评价。 

我们隐去真实名称，称该食品生产商为 Anon 公 
司。 Amm 产品开发者认为提高谷类食品味道 
最主要的四个因 素为： 

1. 谷类食品的小薄片上小麦与玉米的比例。 

2. 甜味剂的类型 ：白糖 、蜂蜜或人工糖剂。 

3. 果味香料的有无。 

4. 烹调时间长短。 

设计一个试验来决定这四种因素中哪种因 
素影响谷类食品的味道。 例如： 一种被用来检 
验的谷类食品是按特定的小麦与玉米的比例、 

糖作为甜味剂、有果味香料、烹调时间长短制 
作出来的。其他被检验的食品是在小麦与玉米 
比例不同而其他三个原料一样的情况下制作出 

* 作者感谢 Burke 市场调研公司的 Dr . Ronald Tatham 所 
提供的统计应用材料。 



Burke 的研究提供了有价值的统计信息，帮助了解消费者的需 


来的。抽取几组小孩子品尝这些谷类食品，并要求他 


对品尝这些食品得来的数据研究进行统计的方法是方 
差分析。分析的结果 如下： 

_小薄片上的成分和甜味剂类型对味道的影响最大。 

• 果味香料其实破坏了谷类食品的味道。 

_烹调时间对食品味道没有影响。 

这些信息用来判别出哪种因素是可能产生最佳口 
味的因素。 

Burke 使用的试验设计和接下来的方差分析在推 
荐产品设计方案中很大帮助。本章我们将介绍如何实 
现这些统计程序。 


求。 © Mary Kate Denny / PhotoEdit . 


们说出他们对每种食品的感受。 


在这一章中，我们将介绍一 种叫方差分析 （ ANOVA ) 的统计程序。首先，我们将使用从某一 
观察研究中得来的数据来介绍如何用 ANOVA 来检验三个或三个以上的总体均值。接着，我们讨 
论使用 ANOVA 来分析数据的方法，这些数据来源于试验检验的三个 类型： 纯随机设计、随机区 
组设计和因素试验。在下一章将涉及到试验型数据和观测型数据的回归分析，我们将发现 ANO - 
VA 对分析结果起很大的作用。 
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Ronald Alymer Fisher ( 1890—1962 ) 创立了统计学分支-试验统计，他除了在统计 

领域有重大贡献外，还是一名基因学家。 



13.1 方差分析导论 


National Computer Products 有限公司 （ NGP ) 计划在亚特兰大、达拉斯和西雅图的工厂生产打印 
机和传真机。为了了解有多少员工知道全面质量管理知识，从每个工厂随机抽取6个员工作为样 
本，对他们进行质量意识考试。表 13. 1中给出18名员工的考试分数，同时给出每组的样本平均 
值、样本方差和样本标准差。管理人员利用每个工厂的数据，检验所有工厂的平均考试分数是否 

一样。 

表 13. 1 18 名员工的考试分数 



CD 光盘数据 
NCP 



工厂1 

工厂2 

工厂3 

观察值 

亚特兰大 

达拉斯 

西雅图 

1 

85 

71 

59 

2 

75 

75 

64 

3 

82 

73 

62 

4 

76 

74 

69 

5 

71 

69 

75 

6 

85 

82 

67 

样本平均值 

79 

74 

66 

样本方差 

34 

20 

32 

样本标准差 

5.83 

4.47 

5.66 


我们定义在亚特兰大工厂的所有员工为总体1，在达拉斯工厂的所有员工为总体2,在西雅 
图工厂的所有员工为总体3。令 


Ati =总体1的平均分数； 

Ate =总体 2 的平均 分数； 

叫=总体3的平均分数。 

虽然我们不知道叫、叫和/的真实值，但我们可用样本资料来检验下面的 假设: 

Ho ： fi\ = /jui = /Js 
H a ： 总体均值不全相等 


若 //。 被拒绝，则我们不能得出所有的平均值不同的结论。拒绝 ft ) 表示至少有两个 
总体平均值不同。 
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简短的说，方差分析是一种判定三个样本的平均值是否大到能拒绝仏的统计程序。 

在介绍这一章时，我们曾说方差分析既可用来分析观察型数据，又可用来分析实验型数据。 
为了给出这两种类型的研究中方差分析所使用的一套相同的术语，我们将引进反应变量、因子和 
处理概念。 

在 NCP 例子中，两个变量分别是工厂位置和质量意识考试分数。因为目的是为了判断亚特兰 
大、达拉斯和西雅图的工厂的分数是否相同，所以考分是因变量或反应 变置。 工厂的位置是自变 
量或 因子。 将用于研究的因子值称为因子水平或 处理。 这样， NCP 例子中三个处理分别为亚特兰 
大、达拉斯和西雅图。在 NCP 中这三个处理规定了研究总体，对于每个处理或总体，反应变量是 
考试分数。 


方差分析的假定 

在进行方差分析时需要三个 假定： 

1. 对于每个总体，反应变量服从正态分布。 这表示，在 NCP 例子中，每个工厂（反应变量）必 
须服从正态分布。 

2. 反应变量的方差，记为 沪， 对所有的总体都相同。 这表示，在 NCP 例子中，三个工厂考 
试分数的方差相同。 

3. 观察值是独立的。 这表示，在 NCP 例子中，每个员工的考试分数与其他员工的考试分数是 
独立的。 

如果样本容量相等，方差分析并不明显依赖于正态总体分布假定。 


概念总览 

如果三个总体的平均值相等，则得出三个样本平均值接近的结论。事实上，如果三个样本平 
均值越接近，我们得出总体均值相等的结论就越充分。相应地，如果样本均值越不同，我们得出 
总体均值不相等的结论就越充分。换句话说，如果样本平均值的差异“小”，则支持 // Q; 如果样 
本平均值的差异“大”，则支持认。 

如果原假设//。： /^=抑=叫为真，则我们可利用样本均值的差异来估计沪。首先，满足方 
差分析的条件前提下，来自同一正态分布的每个样本的均值和方差沪相等。回顾第7章中讲述 
的，一个样本容量为; c 、 平均值为 n 的简单随机样本来自正态分布总体，它的平均值为/ I ，方差为 
图 13. 1描述了这种抽样分布。 

因而，当原假设为真时，我们从表 13.1 中抽取的三个样本平均值为七=79, x 2 = 74, 3 c 3 = 
66,每一个都是从抽样分布中随机抽取的，图 13.1 上给出其值。这时，可用三个5的均值与方差 
来估计抽样分布的平均值和方差。在 NCP 例子中， 3 c 的抽样分布均值的最好估计是三个样本均值 
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因为当队为真时，只有一个抽样分布， 
所以样本均值比较接近。 

图 13. 1 当 Ho 为真时，无的抽样分布 


的算术平均数。因此，在 NCP 例子中，元的抽样分布的均值估计是(79 +74 + 66)/3 =73。我们称 
该估计值为 总样本均值。 x^ck 的抽样分布的方差的估计值是由样本均值的方差给出的。 

(79 — 73) 2 + (74 - 73) 2 + (66 — 73) 2 _ 86 _ 

& 一 3^1 _了一 43 

因为 cr ^ o * 2 /；!， 解： cr 2 

因此 a 1 - n ct\ 

cr 2 的估计值=的估计值）=^4 = 6(43) =258 
结果为 n 4 = 258，称为 a 2 的组间 估计。 

o * 2 的组间估计是建立在原假设为真的基础之上的。在这种情况下，每个样本来自同一样本， 
因此只有一个5的抽样分布。当//。为假时，即假定总体均值全不相同，这是因为这三个样本来自 
不同均值的正态总体，他们将产生三个不同的抽样分布。图 13.2 表明在这种情况下，当矶为真时， 
样本均值不接近。因此，4将变大，从而沪的组间估计也将变大。一般地，若样本均值不等，总 



当讯为假时，样本均值来自不同的 
抽样分布，因而不很接近。 


图 13. 2 当执 为假时的抽样分布 
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体方差的组间估计将偏大。 

每个样本的内部方差同样对方差分析得出的结论有影响。从每个总体中选取一个简单随机样 
本，则每个样本方差给出一个沪的无偏估计，因此，我们可将沪的个别估计组成或和并成一个 
总的估计。这样得出的 o ' 2 估计被称为 a 2 的合并或组内估计。因为每个样本方差所给出的 a * 2 估 
计值是建立在每个样本内部方差的基础上的，总体均值是否相等对沪的组内估计没有影响。当 
样本容量相等时，沪的组内估计可通过计算个别样本的平均值得出。对于 NCP 例子，我们得出 

山、1 34 + 20 + 32 86 m m 

o 2 的组内估计二-^-= 1- = 28. 67 

在 NCP 例子中，沪的组内估计 (258) 远大于沪的组内估计 (28. 67)。事实上，这两个估计 
V 值的比率为 258/28. 67 = 9. 00。但是，当原假设为真时，组间估计才是的最好 估计； 当原假设 
为假时，组间估计得到的沪估计偏大。在这两种情况下，组内估计都是沪的最好估计。因此， 
当原假设为真时，这两个估计值非常接近，它们的比率将接近1。如果原假设为假时，组间估计 
将远大于组内估计，则它们的比率将很大。在下一节我们将介绍比率多大时，才需拒绝执。 

总之， ANOVA 隐含的逻辑是基于对两个具有共同方差沪总体的独立估计的推广。沪的一个 
估计值是基于样本均值之间的差异， a 2 的另一个估计值是基于每个样本内部数据的差异。通过比 
较这两个沪估计值，我们可以判断总体均值是否相等。 



1. 在 10. 1节和 10.2 节我们介绍了检验两个总 
体的均值相等的统计方法。 ANOVA 同样也 
能用于检验两个总体均值相等的假设。实际 
应用中，方差分析是用于三个或更多的总体 
的均值。 

2. 在 10.2 节，我们介绍了当至少有一个样本 
的样本容量小于 30 时如何检验两个均值相 


等的假设。在这次讨论中，我们介绍了将两 
个独立随机样本的数据组合成的一个估计值 
的过程。这个过程称为合并，而得到的样本 
方差为/的合并估计量。在方差分析中， 
CT 2 的组内估计量是这个概念在三个样本中 
的扩展，这就是为什么把组内的估计也称为 
(T 1 的合并估计的原因。 


13 . 2 方差 分析： / c 个总体均值相等性的检验 

可用样本方差对 &个 总体均值进行检验。假设检验的一般形式 如下： 

= /jui =-• = fXk 

H a ： 总体均值不全相等 

式中，从=第个总体的均值。 

假设从 / c 个总体或处理中选择一个样本容量为〃的简单随机样本。对于所得样本数据，令 
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抑=第 ） 个处理的观察值“ 

~ =第 y 个处理的观察值 数目； 

无=第 y 个处理的样本平 均值； 

#=第7个处理的样本方差； 

:第 y 个处理的样本标准差。 

第 j 个处理的样本平均值和样本方差的公式 如下： 

= (13.1) 

n J 


sf = 


X ^ij-Xj ) ： 


Tlj - 1 


总样本平均值，记为 & 等于所有观察值之和除以被观察值总个数。即 



k Oj 

II 



^ij 



(13.2) 


(13.3) 


式中 nr = Mi + M2 + ,#, + Ma 

如果每个样本的样本容量为 n , nr = kn ; 公式 （13. 3) 可简化为 

ttx, tt^j/n txj 

=_ f = i = ，■二 i i__ / •= i 

X nk k k 


(13.4) 


(13.5) 


换句话说，只要样本容量相等，总体均值恰好 等于& 个样本均值的算术平均数。 

因为在 NCP 例子中，每个样本都是由 n = 6 个观察值组成。总样本均值可由公式 （13.5) 得 
出。对于表 13. 1的数据，我们得出下面的 结论： 


79±74±66 

3 


73 


如果原假设为真(叫=辦= / x 3 = 〆 )，总样本均值73是总体均值 / x 的最好估计。 
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总体方差组间估计 

在上节中，我们引进了沪的组间估计概念，并介绍当样本相等时如何计算的组间估计 
值。 cr 2 的估计值称为处理均方，记为 MSTR 。 MSTR 的计算公式 如下： 

k 

^Tlj(xj-x) 2 

MSTR = ― :- (13.6) 


公式 （13. 6) 中的分子称为处理平方和，记为 SSTR ， 分母 k -1 表示 SSTR 相联系的自由度。 
因此，可按下列公式计算处理 均方： 


处理均方 




MSTR = 

k 

(13.7) 

式中 

SSTR = ^ njixj - x ) 2 

j = i 

(13. 8) 


如果讯为真，则 MSTR 是 （ T 2 的无偏估计 。然而 个总体的均值不全相等，则 MSTR 不是 o * 2 的 
无偏估计。事实上， MSTR 估高了 （ T 2 。 

利用表 （13. 1) 中的 NCP 例子的数据，我们得出下面 结论： 


k 

SSTR = X njixj - x ) 2 = 6(79 - 73) 2 +6(74 - 73) 2 + 6(66 -73) 2 = 516 


MSTR = 


SSTR 
k — \ 


516 
= 2 


= 258 


总体方差组内估计 

在前面的章节中，我们介绍了 cr 2 的组内估计概念，并介绍当样本大小相等时的计算方法。 o * 2 
的估计值称为误差均值，记为 MSE 。 MSE 的计算公式 如下： 

k 

MSE = ^( nj -\) sj / n T -k (13.9) 

公式 （13.9) 中的分子称为误差平方和，记为 SSE 。 MSE 的分母是与 SSE 相联系的自由度。因 
此， MSE 的公式如下表示： 




第 13 章方差分析与试验设计 523 


误差均值 

SSE 

MSE = , 

tit~ k 

(13.10) 

式中 

k 

SSE = Z (打_/ - 1 )sj 
j = i 

(13.11) 


注意到 MSE 是基于每个处理内部的差异，故它不受原假设是否为真的影响。因此， MSE 是 
( T 2 的无偏估计。 

利用表 （13.1) 中的 NCP 数据，我们得到下列 结果： 

k 

SSE = XU -1) 彳 = (6-1)34+ (6-1)20+ (6-1)32 =430 

j = 1 

MSE=-^r =- ：^ - \ =^ = 28. 67 
ut~ k lo - 3 15 


方差估计量的比较： F 检验 

我们先假定原假设为真。此时， MSTR 和 MSE 是沪的两个独立的无偏估计。第11章中指 
出，对于正态分布， f 的两个独立估计量之比的抽样分布服从 F 分布。因此，如原假设为真， 
则 AN 0 VA 假设有效， MSTR / MSE 的抽样分布服从 F 分布，其分子自由度为 A ：- l ， 分母自由度 
为 n T - k 0 

如果 A ： 个总体均值不相等，因为 MSTR 高估了 o " 2 ， 则 MSTR / MSE 值将变大。因此，如果 
MSTR / MSE 值太大，大得不像是从分子自由度为 A -1， 分母自由度为 m - A ： 的 F 分布中随机抽 
取的，我们将拒绝汛。导致拒绝7/。的 MSTR / MSE 值取决于显著性水平 o :。 a —经确定，则拒绝 
值被确定。图 13. 3描述了 MSTR / MSE 的抽样分布以及显著性水平为《时的拒绝域，其中表 
示临界值。 



图 13.3 MSTR / MSE 的抽样 分布; 拒绝原假设均值相等的临界值为 
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假定在 NCP 中的决策的管理者愿意接受发生第一类错误的概率的 a = 0.05。 从附录 B 中表4 
中我们可以査的 F 值的临界值，其中分子自由度为灸-1=3 -1=2,分母自由度为 n T -k = \ S - 
3=15。因此，我们得出 Fo . 05 =3.68。 注意，这个数值表示如果我们从分子自由度为2,分母自由 
度为15的 F 分布中随机选取一个值，观察到的这个数值大于 3. 68的可能性只有5%。另外，方 
差分析理论告诉，我们如果假定原假设为真， MSTR / MSE 的比例是 F 分布中的一个值。因此，对 
于 NCP 例子中的拒绝域为 


如果 F = MSTR / MES >3.68, 则拒绝执。 

而]\^丁11=258,]\13£：=：28.67。因为 F = MSTR/MSE =258/28. 67 =9. ⑻远大于临界值 Fo.os = 
3.68, 我们有充分的证据拒绝三个总体均值相等的假设。换句话说，方差分布支持三个 NCP 工厂 
的总体平均考分不相等的结论。 


-值也可用于假设检验。一般的拒绝规则 为：如 p - m < a , 则拒绝执。但是，从 F 概率分 
布表中很难精确得出 Z 3 - 值，因此需要计算机统计软件包如 Minitab 或 Excel 的帮助。附录 13. 1 
和 13. 2介绍了使用方法，在下一节讨论通过计算机得出的方差分析结果。对于 NCP 例子，与检 
验统计量 F = 9. 00相关的值为0.003。因为 p - 值: =0.003< o :=0.05， 故原假设执：三个总 
体均值相等将被拒绝。对 i 个总体均值相等性检验的程序总结 如下： 


k 个总体均埴相等牲裣验 

Ho : Ati = /fc = *** = IM 
ft : 总体均值不全相等 

裣验统计麗 


r MSTR 

f= "msT 

拒绝现则 

利用检验统计量：如果 F > F a ， 则拒绝// 0 
利用 P - 值：如果值 <0£,则拒绝 i/o 

式中， F a 是基于分子自由度为 k 一 1 ， 分母自由度为、- A ： 的 F 分布 


(13.12) 


方差分析表 

上面的计算结果可以用方差分析表或称 ANOVA 表表示出来。表 13. 2是 NCP 例子的方差分 
析表。在方差来源一列中，平方和“合并”称为总平方和 （ SSTh 注意到在 NCP 例子中，有 
SST = SSTR + SSE ，并且总的平方和对应的自由度是 cr 2 的组间估计所对应的自由度与 cr 2 的组内估 
计所对应的自由度之和。 

应该指出， SST 被自由度 nr - 1所除的结果只不过是将所有18个观察值视为一个数据集而得 
到的总样本方差。以整个数据集为一个样本，总的平方和 SST 的计算公式为 

k nj 

SST = X £(%-灵) 2 (13.13) 
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NCP 例子中方差分布表观察得到的上述结果也可用于其他问题，即 


SST = SSTR + SSE ( 13. 14 ) 


方差分析可被视为总平方和被分解为不同成分的一种统计程序。 

换句话说， SST 可划分为两个平方和 之和： 处理平方和与误差平方和。注意， SST 对应的自由 
度财-1也可划分为 SSTR 对应的自由度 fc - 1与 SSE 对应的自由度 n T - k 0 方差分析就是将总的 
平方和及自由度分解 ( partitioning ) 为相应的 来源： 处理和误差。给适当的自由度划分总平方和提供 
了方差估计量以及用于检验总体均值相等性的值。 

方差分析的计算结果 

因为统计计算软件包的广泛使用，大样本容量和/或多个总体的方差分析计算很容易实现。 
图13.4表示用1^1^止软件包得岀的、0?例子的输出结果。计算机输出结果的第一部分是熟悉的 
ANOVA 表形式。比较图 13.4 和表 13.2, 可以看到虽然标题不同，其内容却是一样的。表头 
“ Source ” 是表示方差来源这一列， “ Factor ” 表示对应的处理的那一行。 


Analysis 

of Variance 







Source 

DF 

SS 

MS 


F 

P 



Factor 

2 

516.0 

258.0 

9.00 

0.003 



Error 

15 

430.0 

28.7 






Total 

17 

946.0 











Individual 95% CIs For 

Mean 






Based 

on 

Pooled StDev 



Level 

N 

Mean 

StDev 

- + - 

—一 _ — 

- h - 

—+ - 

-+- 

Atlanta 

6 

79.000 

5.831 



(-- 

_ * 

- ) 

Dallas 

6 

74.000 

4.472 



( - 

---) 


Seattle 

6 

66.000 

5.657 

(--- 

一 _ ★ ■ 

- ) 







- + - 

■一 ■ ■ 

-+- 

■ H - 


Pooled StDev = 

5.354 


63.0 


70.0 77 

.0 

84.0 


图 13.4 Minitab 关于 NCP 方差分析的输出结果 


表 13. 2 NCP 例子的方差分析表 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

516 

2 

258. 00 

9.00 

误差 

430 

15 

28.67 


总体 

946 

17 




平方和和自由度两列互换， />- 值是为了检验。因而，在显著性水平 a =0.05 下，因为/>- 
值 =0. 003< o ：=0. 05，拒绝讯。 
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注意 ANOVA 表下方，计算机输出结果中包含了各自样本容量、样本均值和样本标准差。另 
外， Minitab 给出了每个总体均值的95%置信区间估计。在进行置信区间估计时， Minitab 使用 
MSE 为 V 的估计值。因而， MSE 的平方根给出了总体标准差^的最好估计。^的估计值在计算 
机的输出结果中对应 “Pooled StDev ” ，它等于 5. 354。为了解释这些区间估计是怎样得来的，我 
们计算一下亚特兰大工厂总体均值的95%置信区间估计。 

第8章的区间估计方法中，我们知道总体均值区间估计的一般形式为 


1 ^-^= (13.15) 

V n 

式中， s 为总体标准差 cr 的估计值。在方差分析时， cr 的最好估计是由 MSE 的平方根或 Pooled 
StDev 给出，所以我们将公式 （13. 15) 的 s 代为 5. 354。 t 值的自由度为 cr 2 的组内估计对应的自由 
度15。因此，对于紈02 5 = 2. 131，我们得到 


5 354 

79± 2. 131^7^ = 79± 4. 66 

f 6 

这样，亚特兰大工厂的95%置信区间为 79 -4.66=74.34 至79 +4.66 = 83.66。因为在 NCP 

例子中样本容量相等，达拉斯和西雅图工厂各自的置信区间也可由各自样本均值加减 4. 66得出。 
因此， Minitab 得出的图中可以发现置信区间的宽度相等。 



1. 总体均值也可由 / c 个样本均值的加权平均得 
出。 


3. 如果每个样本有71个观察值 ， nr = ;因 

此 ， rtr - /c = - 1) ，公式 （13. 9) 可写成 



Tl\Xi + 7X7X2 + ••_ + Tll^Ch 
TIt 


当已知样本均值时，用这个公式计算总均值 
比公式 （13.3) 式简单。 

2. 当每个样本由 n 个观察值组成时，公式 
(13.6) 可写成 

k 

(xj-x ) 2 

MSTR= -^7~' —— 

A ; — 1 

注意，这个结论与 13. 1节中我们引入 CT 2 的 
组内估计概念时所介绍的结果一样。公式 
(13. 6) 是该结果在样本大小不相等时的简单 
推广。 




k 一 


^(n-l )sf (n-l)^sj ^sf 

换句话说，如果样本大小相等， MSE 只是友 
个样本方差的算术平均值。注意这个结论与 
13.1 节中我们引入/的组内估计概念时所 
介绍的结果一样。 

4.左个总体每个均值的置信区间可按下式建 




t a /2 


VMSE 


f 值的自由度为 o 2 的组内估计相对应的自由 
度。 
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方法 

1. 从三个总体分别抽取五个观察值，得到如下 数据: 


自测题 观察值 

样本1 

样本2 

样本3 

1 

32 

44 

33 

2 

30 

43 

36 

3 

30 

44 

35 

4 

26 

46 

36 

5 

32 

48 

40 

样本均值 

30 

45 

36 

样本方差 

6. 00 

4.00 

6.50 

a . 计算沪的组间估计。 



b . 计算 cr 2 的组内估计。 




c . 在显著性水平 a =0.05 下，我们能否拒绝原 假设： 三个总体均值相等? 

d . 建立 AN ( JV ^^ 0 

2. 从三个样本分别抽取4个观察值，得到以下 数据： 


观察值 

样本1 

样本2 

样本3 

1 

165 

174 

169 

2 

149 

164 

154 

3 

156 

180 

161 

4 

142 

158 

148 

样本均值 

153 

169 

158 

样本方差 

96.67 

97.33 

82.00 


a . 计算 cr 2 的组间估计。 

b . 计算 cr 2 的组内估计。 

c . 在显著性水平 a =0.05 下，我们能否拒绝原 假设： 三个总体均值相等? 

d . 建立 ANOVA 表。 

3. 从3个总体分别选取一个样本： 


样本1 

样本2 

样本3 

93 

77 

88 

98 

87 

75 
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(续表) 


样本1 

样本2 

样本3 

107 

84 

73 

102 

95 

84 


85 

75 


82 


100 

85 

79 

35.33 

35.60 

43.50 


a . 计算 o * 2 的组间估计。 

b . 计算^的组内估计。 

c . 在显著性水平 =0.05 下，我们能否拒绝原 假设： 三个总体均值相等？试解释。 

d . 建立 ANOVA 表。 

4 . 从4个样本中各随机选取16个观察值。 ANOVA 表的一部分内容 如下： 

方差来源 平方和 自由度 均方差 F 

处理 400 

误差 

总计 1500 

a . 将 ANOVA 表中的残缺项补齐。 

b . 在显著性水平 o : =0.05 下，我们能否拒绝原 假设： 四个总体均值相等？ 

5. 从3个样本中各随机选取25个观察值。对于这些数据 ， SSTR = 120, SSE =216 0 

a . 建立 ANOVA 表。 

b . 在显著性水平 a = 0.05 下，临界值 F 值的大小是多少？ 

c . 在显著性水平 a =0.05 下，我们能否拒绝原 假设： 三个总体均值相等？ 

应用 

6. ( 自测题）为了检验三个生产商生产的机器混合一批原材料所需的平均时间是否一致 ， Jocobs 
化学公司得到关于混合原料所需时间的如下数据。利用这些数据检验三个生产商生产的机器混 
合一批原料总体均值是否相等，取 a =0.05。 


生产商 


1 

2 

3 

20 

28 

20 

26 

26 

19 

24 

31 

23 

22 

27 

22 


7. 某组织的各级管理者需要适当的信息去完成各自的任务。一份研究调查信息来源对信息传播的 
影响。在这份研究中信息来源分为上级、同事和下属。在每个情形中，得到的传播程度数据的 
数值越高表示信息传播很广。取 a =0.05, 利用下面数据，检验信息来源对传播是否有明显的 
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影响。得出你的结论，对信息的使用和来源你有何建议? 

上级 同事 



下级 

6 

5 

7 

4 
3 

5 
7 
5 


8. 一份研究调查市场专业人员的公司伦理观念。取《=0.05,利用下面数据（分值越高表明伦理 
价值观念程度越高），检验三个专业人员群体的公司伦理理念是否存在明显的差异。 


房地产代理商 建筑商 

6 5 

5 5 

4 4 

5 4 

6 5 

4 4 


广告人员 
6 
7 
6 

5 

6 
6 


9 . 



CD 光盘数据 


Stress 


Journal of Small Business Management 报告的一个研究中称在该研究中为了度量一些模棱 
两可、含糊不清的方面，设计了 15个问题，这15项问题按从强烈同意到强烈反对， 
分成1一5级打分。对每一个人，15项问题打分总分在15—75之间。得分越高，表明 
工作压力越大 （Journal of Small Business Management , October 1997 )。假定在类似的研究 
中，用20个这样 1—5 回答选项的问题对随机抽取得的15名房地产代理商、15名建 
筑商和15名股票经纪人度量各自的工作压力。结果 如下： 


房地产代理商 

建筑商 

股票经纪人 

81 

43 

65 

48 

63 

48 

68 

60 

57 

69 

52 

91 

54 

54 

70 

62 

77 

67 

76 

68 

83 

56 

57 

75 

61 

61 

53 

65 

80 

71 

64 

50 

54 

69 

37 

72 

83 

73 

65 

85 

84 

58 

75 

58 

58 


取 a =0. 05,检验在这三种职业中工作压力是否有显著差异。 
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10. 《商业周刊》的“全球1000强”栏目中按每家公司的市值排名 （ 妒 ee / c , July 7, 



CD 光盘数据 


1997)。下面表中显示了 29家金融行业公司的市盈率比。行业代码1代表银行业，行 
业代码2表示金融服务业，行业代码3表示保险公司。取 a =0.05， 检验这三种金融 
公司的市盈率比是否相同。 


Mkl Value 


公司 

行业代码 

市盈率 

公司 

行业代码 

市盈率 

Citicorp 

1 

15 

MBNA 

2 

24 

NationsBank 

1 

14 

Cincinnati Financial 

2 

19 

Wells Fargo 

1 

25 

Franklin Resources 

2 

22 

First Union 

1 

13 

Fannie Mae 

2 

17 

KeyCorp 

1 

14 

American International 

3 

21 

Chase Manhattan 

1 

12 

Group 



Fifth Third Bancorp 

1 

23 

Allstate 

3 

14 

Bank of New York 

1 

17 

Marsh & McLennan 

3 

20 

First Chicago NBD 

1 

13 

American General 

3 

16 

Mellon Bank 

1 

16 

Cigna 

3 

12 

Fleet Financial 

1 

15 

Lincoln National 

3 

13 

Group 



AFLAC 

3 

21 

First Bank System 

1 

16 

Equitable 

3 

11 

American Express 

2 

19 

Chubb 

3 

20 

Travelers 

2 

15 

General Re 

3 

15 

Merrill Lynch 

2 

12 





13. 3多重比较方法 


用方差分析检验^个总体均值是否相等时，拒绝原假设只能得出总体均值不全相等的结论。 

此时我们需要进一步检验并判定哪些均值之间存在差异。本节的目的是介绍两种 多重比较方法 
(multiple comparison procedures ) 来对总体均值配对比较。 


费舍尔 LSD 方法 

假定通过方差分析拒绝总体均值相等的假设，此时，费舍尔的最小显著差异 ( LSD ) 方法可用 
于判定哪些均值之间有差异。在介绍用费舍尔 LSD 方法进行总体均值配对比较时，仍以 13.1 节 
的 NCP 为例子。通过方差分析，我们的三个工厂总体平均考试分数不等。接下的问 题是： 我们认 
为存在差异，但哪些工厂之间存在差异?也就是说，是总体1与总体2之间均值不同，还是总体1 
与总体3之间均值不同，还是总体2与总体3之间均值不同？ 
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在第10章中我们介绍了对两个总体均值相等性检验的统计程序。费舍尔 LSD 方法是对总体 


方差估计稍微做以修改得出的，并且基于两个总体情形的 t 检验统计量。下表给出了费舍尔 LSD 
方法的概要： 


费舍尔 LSD 方法 

* 

Ho ： im - \M 

Ha ： 


检验统计璗 

t - Xi - Xj 

(13.16) 


1 1 - 

、/mse (丄 + 丄） 

V Hi Tlj 

拒绝现则 



如果£< - 2或 t > t a / 2 , 则拒绝 i/o 


式中，值是基于自由度为 n 

t - A ： 的 t 分布。 



现在将此方法运用于判断总体 1( 亚特兰大）和总体 2( 达拉斯）的均值之间是否有明显的差异。 


表 13. 1表示亚特兰大工厂的样本均值为79，达拉斯工厂的样本均值为74。表13.2表示]^5£值 
为 28. 67，此值为沪的估计值，自由度为15。在显著性水平为 0. 05下，查 t 分布表得，自由度 
为 nr - A ： = 18-3 = 15 时， to . o 25=2. 13 U 因此，如果 K -2. 131 或^ >2. 131,则拒绝 i /。： /xi = 
辦。利用 NCP 例子中的数据，我们得岀以下的 t 值： 


V 28 - 67 (H 

因为 r = 1.62, 故我们没有充足的证据去拒绝原假设，因此，我们不能得出亚特兰大工厂与达拉 
斯工厂的总体平均分数不等的结论。 - 

许多实际应用人员发现，容易确定样本均值之间的偏差大到何种程度时必须拒绝讯。此时检 
验统计量是元-%，而且检验过程按如下步骤 进行： 

~基子检验统计量的费舍尔 LSD 方法 ( H ) 

Ho : IM - \M 

Ha : fJj 

检验统计置 

Xi - Xj 

彺显著牲水平为 《 时的拒绝规则 

如果 | 无-巧 |> LSD ， 则拒绝 i / 0 

式中 LSD = t a /2 a / MSE (— +~) (13.17) 

\ Tli Tlj 


对于 NCP 例子， LSD 值为 
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LSD =2. 131-^28. 67( y + y ) =6. 59 

注意当样本容量大小相等时，只需计算一个 LSD 值。此时，我们只需简单将任何两个样本均 
值之差与 LSD 值比较。例如，总体 1( 亚特兰大）与总体3 (西雅图）样本均值之差为 79-66 = 
13。差值大于 6. 59,这表示我们能拒绝亚特兰大工厂与西雅图工厂的总体平均分数相等的原假 
设。类似的，总体2与总体3样本均值之差为74-66 = 8>6.59,我们仍拒绝原假设即达拉斯工 
厂与西雅图工厂的总体平均分数相等。因此，我们可以得出结论，对于平均分数，亚特兰大工厂 
和达拉斯工厂都与西雅图工厂有差异。 

费舍尔 LSD 也可用于两个总体均值之间的置信区间估计。一般方法 如下： 


利用费舍尔的 LSD 方法对两个总体均值2差进行置信区间估计 

元一写士 LSD 


式中 LSD = V MSE ( t + t ) 

心/2是基于自由度为 nr - A ： 的 t 分布。 


(13.18) 

(13.19) 


如果公式 (13. 18) 中的置信区间包含零值，则我们不能拒绝两个总体均值相等的假设。但是，如 
果置信区间没有包含零值，我们得出总体均值存在差异的结论。对于 NCP 例子 ， LSD =6： 59 (相应 
的〜 025 =2. 131)。因此，总体1与总体2之间差值的95%置信区间的估计为79-74±6.59=5± 
6. 59 = (-1.59, 11.59)。因为此区间包含0,所以我们不能拒绝两个总体均值相等的假设。 

第一类错误的概率 

我们对费舍尔 LSD 方法进行讨论时，首先假定方差分析已经提供统计证据去拒绝总体均值相 
等的原假设。因此，我们介绍使用费舍尔 LSD 方法去判定哪些之间存在差异。从技术上讲，此方 
法为保护性或限制性 LSD 检验，此方法必须通过方差分析找到一个显著的 F 值，才能使用。为了 
解释多重比较检验时，这种区别是十分重要的，因此，我们需要解释比较性第一类错误概率和试 
验性第一类错误概率的区别。 

对于 NCP 例子，我们用费舍尔 LSD 方法做三个配对比较。 

检验 1 检验 2 检验 3 

Ho ： /X\ = JJbz Ho ： IX\- fl3 Hq ； fJa- IM 

H a ; fl\7^ JJbz H a ： /Jls Ha ： /Jbz7^/Ji3 

对于每种情况，取显著性水平 a =0.05。 所以，对于每个检验，如果原假设为真，我们犯第 
一类错误的概率为 a =0. 05,而不犯第一类错误的概率为1 -0.05 =0:95。在多重比较方法中我 
们称第一类错误的概率 a =0. 05为比较性第一类错误概率 (compiarisonwise Type I error rate ) 0 比较 
性第一类错误概率是指单一配对比较中的显著性水平。 
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先考虑一个稍有差异的问题。在进行三个配对比较检验时，此检验中至少有一次犯第一类错误 
的概率为多少？为了回答这个问题，注意三次检验都不犯第一类错误概率为 0.,95 x0. 95 x0. 95 = 
0.857 4。•所以，至少有一次犯第一次错误的概率为 1 -0.857 4 = 0. 1426。囱此，当我们用费舍 
尔 LSD 方法检验三个配对比例时，第一类错误的概率不是0.05,而是 0.142 6'; 我们将此错误概 
率称 为总的 或是试 验性第一类错误概率 (experimentwise Type I error rate )。 为了避免混清，我们将 
试验性第一类错误记为 a EW 。 

若样本个数越多，发生试验性第一类错误概率越大。例如，对于由5个总体的问题，将有10 
个可能的配对比较。当比较性错误概率 a = 0.05 时，如果我们用费舍尔 LSD 方法去检验所有可能 
配对比较，试验性第一类错误概率为 1_(1-0.05) 1G = 0.40。 此时，使用者应去寻找更好的方法 
去控制试验性错误概率。 

Bonferroni 修正方法是控制总的试验性错误概率的一种方法，这种方法采用对每个检验使用更 
小的比较错误的方法。例如，如果我们要检验 C 个配对比较，并且希望总的试验性检验中最大发 
生第一类错误的概率为 « ew , 我们简单将单个配对错误概率定为 a EW /C。 在 NCP 例子中，假定最 
大试验性概率 «EW = 0. 05,如果我们用费舍尔 LSD 方法检验全部三个配对比较，则比较性错误概 
率为 a =0.05/3 =0.017。对于有5个总体和10个可能配对比较的问题， Bonferroni 修正方法给定 
比较性错误概率为 0.05/10 =0.005。回顾第9章中假设检验的讨论中，对于固定的样本容量，第 
一类错误发生的概率减少将导致第二类错误发生的概率增加。而第二类错误对应的是指当两个样 
本均值实际上相等时，而接受两个总体均值不等的假设。因此，由于犯第二类错误发生的概率增 
加，许多使用者情愿接受相对低的第一类错误发生的概率。 

另外 Tukey 方法和 Duncan 多重比较方法也适用于这种情况。但是，对于哪种方法更好，在统 
计学界有很大争执。事实上，没有哪种方法能适用于所有的问题。 



方法 


11 . 



•自测题 


在练习1中，从三个总体中分别抽取5个观察值。数据如下 .： 元1 = 30，无 2 = 45，元3 = 
36, MSE=5.5。 在显著性水平为 o：=0.05 下，原假设样本均值相等被拒绝。在接下的 
计算中，取 ct = 0.05。 

a. 用费舍尔 LSD 方法检验总体1和总体2、总体1和总体3、总体2和总体3平均值 
之间是否有差异？ 

b. 用费舍尔 LSD 方法对总体1和总体2之间的差值的95%置信区间估计。 


* 假定三个检验是独立的，因此三个事件的联合概率为各自概率的简单相乘。事实上，因为在每个检验中都适用 MSE ， 三 
个检验不独立，所以发生错误的概率比上述大。 
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12.从三个总体中分别抽取4个观察值。得到如下数据，在接下来的计算中，取 a =0.05 



样本 1 

样本 2 

样本 3 


63 

82 

69 


47 

72 

54 


54 

88 

61 


40 

66 

48 

Xj 

51 

77 

58 

s 2 

96. 67 

97,34 

81.99 


a . 利用方差分析检验三个总体均值之间是否有明显的差异？ 

b . 用费舍尔 LSD 方法检验哪些均值之间有差异？ 

应用 

13. 参照练习6。取显著性水平 a = 0 . 05,用费舍尔 LSD 方法检验生产商1和生产商3均 
值是否相等。检验后，得出你的结论。 

自测题 

14. 参照练习13。利用费舍尔 LSD 方法对总体1和总体2的均值之差的95%置信区间进 
行 估计。 

自测题. 

15. 参照练习8。假定显著性水平 a =0. 05,我们可以得出市场管理人员、市场研究人员与广告人 
员在伦理观念上有差异。利用本节介绍的方法判定哪些之间有差异，取《=0.05。 

16. 为了检验4台机器的故障时间有任何明显差异，得到如下 数据： 


机器 1 

机器 2 

机器 3 

机器 4 

6.4 

8.7 

11. 1 

9.9 

7.8 

7.4 

10.3 

12. 8 

5. 3 

9.4 

9.7 

12. 1 

7.4 

10. 1 

10.3 

10.8 

8.4 

9.2 

9.2 

11.3 

7.3 

9.8 

8.8 

11.5 


a . 取显著性水平 a = 0. 05, 4部机器的总体平均值之间存在差异吗？ 

b . 用费舍尔 LSD 方法检验机器2和机器4之间均值相等性，取显著性水平 a =0.05。 

17, 参照练习16。用 Bonferroni 修正方法检验所有成对均值之间有无明显差异，假定总体的试验 
性误差的最大概率为0.05。 

18. 参照练习10。在显著性水平为 0.05 下，我们得出银行、金融服务公司和保险公司之间的平均 
价格/收入比率比有差异，利用本节介绍的方法检验哪些之间有差异，取 a = 0.05。 
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13.4 试验设计介绍 

统计研究被分为试验型与观察型两类。 在试验型研究中， 对感兴趣的变量加以定义。因此， 
在研究一个或多个因素被控制，数据可从因素如何影响变量中获得。 在观察或非试验型研究中， 
没必要对因素控制。调查（见第21章）是最常见的观察型研究的类型。 

在观察例子中因果关系很难判断，但这些关系在试验设计中容易建立。 

引入方差分析的 NCP 例子是观察型统计研究的一个例子。为了了解 NCP 员工对全面质量管 
理的理解程度，从 NCP 三个工厂中分别随机抽取6个员工，并对他们进行质量意识考试。这些员 
工考试分数通过方差分析检验三个工厂总体平均考分相等的假设。 

我们以试验型研究的一个例子即 Chemitech 公司所面临的问题为例。 Chemitech 开发了一种新 
型的城市供水过滤系统，这个过滤系统的组成部分是从各个供应商中购买的， Chemitech 只是在南 
加州哥伦比亚的工厂负责组装。工程部负责确定新过滤系统的最佳装配方法。在考虑了大量可能 
的方法后，负责人将其方法减少为 三种： 方法 A 、 方法 B 和方法 C 。 这三种方法在产品组装的步 
骤顺序上有不同。 Chemitech 的管理人员希望能判断哪种装配方法每星期能生产的过滤系统最多。 

在 Chemitech 试验中，装配方法是独立变量 或因子 ( factor ) 。因为对应这些因子有三种装配方 
法，我们称这次试验中有三个处理，每 个处理 ( treatment ) 对应三种装配方法中的一个 。 Chemitech 
问题是涉及到一个定性因素（装配方法）的单因 子试验 ( single-factor experiment ) 的例子。其他试验 
可能由多个因素组成，其中一些因素是定性的，而另外一些是定量的。 

在 Chemitech 试验中根据三种装配方法或处理分类成三个总体。其中一个是使用装配方法 A 
的全体 Chemitech 员工，一个是使用装配方法 B 的全体 Chemitech 员工，第三个是使用装配方法 C 
的全体 Chemitech 员工。注意对于每个总体变量或反应变量是每个星期装配的过滤系统数目。试 
验的主要统计目的是判定三个总体每星期装配的平均数目是否相同。 

假设从 Chemitech 生产车间中的所有装配工人中抽取三名员工。在试验设计术语中，三个随 
机选取的工人是试 验单元 (experimental units )。 将 Chemitech 问题中使用的试验型设计称为 纯随机 
设计 (completely randomized design ) 0 这种类型的设计要求将三种装配方式或处理中的其中一个随 
机分配给试验单元或工人。例如，方法 A 随机分配给第二名工人，方法 B 随机分配给第一名工 
人，方法 C 随机分配给第三名工人。这个例子介绍 的随机 化概念是一个重要的原理。 

随机化是将处理随机地指派给试验单位的步骤。在 R . A . Fisher 的工作之前，处理是 

被系统或主观地指派的。 


注意到对于每个处理，一次试验只有一个装配数目的度量。换句话说，每个处理的样本容量 
为 1。 为了获得每种装配方法更多的数据，我们必须重复或复制基本试验步骤。例如，假设不是 
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从总体中随机抽取3个工人而是抽取15名工人，将这15名工人随机分配，每三个处理分配给5 
名工人。因为每种装配方法有5名工人，故可以得到5个重复结果。复制过程是试验设计另一个 
重要原理。图 13. 5显示了 Chemitech 装配方法试验的纯随机设计。 



图 13. 5 评估 Chemitech 装配方法球验的纯随机设计 


数据收集 

一旦对试验设计满意后，我们将收集数据并加以分析。在 Chemitech 例子中，首先将指导每 
个员工使用其分配的装配方法，然后利用该方法组装新的过滤系统。假设组装和培训完成，表 
13. 3列出每个员工一个星期组装系统的数目。三种装配方法所生产的样本平均数见 下表： 

装配方法 平均生产数目 

A 62 

B 66 

C 52 

对照这些数据，发现方法 B 似乎比其他两种方法有更高的生产效率。 


表 13. 3 15 名工人生产的产品单位数目 



CD 光盘数据 


ChemTech 


方法 


观察值 

A 

B 

C 

1 

58 

58 

48 

2 

64 

69 

57 

3 

55 

71 

59 

4 

66 

64 

47 

5 

67 

68 

49 

样本均值 

62 

66 

52 

样本方差 

27. 5 

26.5 

31.0 

样本标准差 

5.24 

5. 15 

5.57 
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现实问题是观察到的样本平均值差异是否足够大，以至于得出每种装配方法的总体均值不 
同。为了将此问题以统计术语表达，我们引入下列 符号： 

Mi = 方法 A 每周生产的新系统的数目； 

~ =方法 B 每周生产的新系统的 数目； 

A =方法 C 每周生产的新系统的数目。 

虽然我们不知道 A 、 叫和_的真实值，我们利用样本均值来检验下面的 假设： 

Ho i ― fjji ― 

i/a ： 所有总体均值不全相等 

对于纯随机试验性设计进行数据分析时所面临的问题，与我们开始引入方差分析检验两个以 
上总体均值是否相等时面临的问题一样。在下面几节中我们将介绍如何使用方差分析来处理类似 
Chemitech 装配方法的问题。 



1. 试验设计中的随机化是观察性研究中概率抽 
样的一个类比。 

2. 在一些医药试验中，潜在的偏差可以通过双 
重未知的研究消除。在这样的研究中，无论 


是使用该处理的医师还是受治疗者，都不知 
道是用哪种处理方法。许多其他类型的试验 
也可借鉴这个类型的研究。 


13.5 纯随机设计 

在分析来自纯随机设计的数据时，我们进行的假设与 13. 2节中所介绍的假设的一般形式一样。 

Ho : fM = /Jbi =…= fu 
H & ： 总体均值不全相等 

因此，从纯随机设计中收集数据并对其进行均值检验时，我们将使用 13.1 节和 13. 2节中介 
绍的方差分析。回顾知道进行方差分析时，需要计算总体方差沪的两个独立估计。 


总体方差组间估计 


沪的总体估计是指 处理平方和， 记为 MSTR , MSTR 的计算公式 如下: 
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MSTR = 


^rij(xj-x ) 2 



(13. 20) 


公式 (13.20) 中分子为组间平方和或处理平方和，记为 SSTR 。 分母 A -1 表示与 SSTR 相关的自由度。 
利用表 13.3 中的 Chemitech 数据，我们得出以下结论（注 意： ^ = 60)： 


k 

SSTR = ^ nj ( xj -^) 2 = 5 (62-60) 2 + 5(66 - 60) 2 + 5(52 - 60) 2 = 520 


SSTR 
k ~ l 


520 

'3-1 


= 260 


总体方差组内估计 

f 的组内估计是指误差均方，记为 MSE ， 计算 MSE 的公式 如下： 

k 

^ (rij - 1 )sj 

MSE = ^——;~- (13.21) 

71t~ K 

公式 （13. 21) 的分子为组内平方和或误差平方和，记为 SSE 。 MSE 的分母是指与组内方差估计有关 


的自由度。 

利用表 13.3 中的 Chemitech 数据，我们得到如下结果： 

k 

SSE = ^( nj -\) sf = 4 { 21 . 5 ) +4(26.5) +4(31) =340 


MSE = 


SSE 

riT~k 


340 
~ 15-3 


= 28. 33 


方差估计量的比较： F 检验 

如果原假设为真， ANOVA 假设有效， MSTR / MSE 的抽样分布是分子自由度为 A ;- l ， 分母自 
由度为 w - A ： 的 F 分布。 如果& 个总体的均值不等， MSTR / MSE 值将变大，因为 MSTR 高估了 
因此，如果 MSTR / MSE 值太大，以至于不是分子自由度为 /c - 1，分母自由度为 听 - Zc 的 F 
分布的值，我们将拒绝 i /。。 

对于 Chemitech 问题， F 值= MSTR/MSE = 260/28. 33 = 9. 18。 F 的临界值是基于分子自由 
度为2，分母自由度为12的 F 值。在显著性水平为 0.05 下，附录 B 中的表4中查得 F 0 . o 5 = 
3.89。如果 F 的观察值大于临界值，则我们拒绝原假设并得岀总体均值不全等的结论。 
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方差分析表 

现在我们可以写岀总的平方和 SST 的分解 形式： 

SST = SSTR + SSE (13.22) 

同样这一结果也适用于与这些平方和对应的自由度，也就是说，总自由度等于 SSTR 和 SSE 


对应的自由度之和。纯随机设计的 ANOVA 表的一般形式如表 13. 4所示，表 13. 5是 Chemitech 问 
题相对应的 ANOVA 表。 

表 13. 4 纯随机设计的 ANOVA 表一般形式 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

SSTR 

k -\ 

MSTR = 

MSTR 

MSE 

误差 

SSE 

nr — k 

MSE = — 

tit~ k 


总计 

SST 

JlT — 1 




表 13. 5 Chemitech 问题相对应的 ANOVA 表 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

520 

2 

260. 00 

9, 18 

误差 

340 

12 

28. 33 


总计 

860 

14 




配对比较 


我们可以用费舍尔 LSD 方法来检验 Chemitech 问题中的所有可能配对比较。取显著性水平为 
0.05， t 分布表明当自由度为咐-& = 15-3 = 12时，紕。 25 =2. 179。将 MSE = 28. 33代入公式 
(13. 17) ，我们得到费舍尔的最小显著差异 

LSD = ta /2 =2. 179 ^28. 33(+ + +) =7. 34 

如果任意两样本的差异大小超过 7. 34,我们将拒绝相应的总体均值相等的假设。对于表 13. 3 


的 Chemitech 数据，我们得到以下 结果： 

样本差别 是否显著 

方法 A - 方法 B =62-66=-4 否 

方法 A - 方法 C =62-52 = 10 是 

方法 B - 方法 C =66-52 = 14 是 


因此，总体均值差异可归于方法 A 和方法 C 的均值之间的差异以及方法 B 和方法 C 的均值之 
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间的差异，故方法 A 和方法 B 比方法 C 要好。但是，对于方法 A 和方法 B ， 需要进一步检验，目 
前的研究没有给出足够证据得出这两种方法有差异。 



方 法 

19. 下面数据来自纯随机 设计： 

处理 
A 

162 
142 
165 
145 
148 
174 
156 
164.4 

a . i 十算处理平方和。 

b . 计算处理均方。 

c . 计算误差平方和。 

d . 计算误差均方。 

e . 在显著性水平 a =0.05 下，检验三个处理的均值是否相等。 

20. 参照练习19。 

a . 建立 ANOVA 表。 

b . 在显著性水平 a = 0. 05下，利用费舍尔最小显著差异方法检验所由可能的配对比较。在进 
行检验后，得出你的结论 o 

21. 在一次纯随机试验设计中，5个因子水平每个指派7个试验单元。试完成下列 ANOVA 表： 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

300 




误差 





总计 

460 





22. 参照练习21。 

a . 本问题中蕴含着什么假设？ 

b . 在显著性水平 a = 0.05 下，我们能否拒绝 ( a ) 中的原假设?试解释。 


B 

C 

142 

126 

156 

122 

124 

138 

142 

140 

136 

150 

152 

128 

142 

134 

131. 2 

110.4 


自测题 

观察值 

1 

2 

3 

4 

5 

6 

勾 

s 2 
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23 .在一次试验中为了检验三个不同处理的输出水平，得到以下 数据： SST = 400， SSTR = 150, 
如=19。_建立 ANOVA 表，检验三个处理的平均输出水平之间是否有显著差异？取 a = 0.05。 


24. 在纯随机试验设计中，第 1 个处理指派 12 个试验单元，第 2 个处理指派 15 个试验单元，第 3 
个处理指派 20 个试验单元。计算下列的方差分析。在显著性水平 a = 0.05 下，处理问题是否 
有显著差异？ 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

120 0 




误差 





总计 

180 0 





25. 对于下面的试验设计进行方差分析计算。在显著性水平 a =0. 05下，处理均值之间是 



CD 光盘数据 
Exer 25 


否有显著差异? 


Xj 

S 2 


处理 


A 

B 

C 

136 

107 

92 

120 

114 

82 

113 

125 

85 

107 

104 

101 

131 

107 

89 

114 

109 

117 

129 

97 

110 

102 

114 

120 


104 

98 


89 

106 

119 

107 

100 

146. 86 

96,44 

173. 78 


应用 

26. —个工业小组对装配某种产品提出三种不同的方法。为了调查每种方法组装的产品单位的数 
量，随机选取 30 名 工人， 并随机分配给三种方法，每种方法分配 10 个。对组装的产品个体如 
实记录，对记录数据集进行方差分析。得到如下 结果： SST = 10 800; SSTR = 4 560 o 

a . 针对此问题建立 ANOVA 表。 

b . 取 ct = 0.05, 三种装配方法组装的产品数目均值之间是否有显著差异？ 

27. 在一次对 4 种类型电缆的断裂强度试验设计中，得到如下 数据： SST = 85.05, SSTR = 61. 64, 
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财= 24。建立 ANOVA 表，检验4种电缆的平均断裂强度是否有.显著差异，取 a =0.05。 

28. 为了研究温度对某化学反应产生的影响，在三种不同的温度条件下分别产出5批物质。结果 
如下，建立方差分析表，取 a =0. 05,检验温度高低是否对某化学反应产出的影响有显著差异。 


温度 


50 X 1 

60^ 

70^ 

34 

30 

23 

24 

31 

28 

36 

34 

28 

39 

23 

30 

32 

27 

31 


29. 



CD 光盘数据 


审计员必须根据自己的直接经验、间接经验或两者组合来对某一个审计报告方方面面 
作出判断。在一次研究中，审计员被要求对审计报告中出错的概率作出判断，然后将 
审计员的判断与真实结果比较。假设从类似的研究中得到下面数据，分数越低判断越 
准确。 


Audjudg 

直接 

间接 

组合 


17.0 

16. 6 

25.2 


18.5 

22.2 

24.0 


15. 8 

20.5 

21.5 


18.2 

18.3 

26.8 


20, 2 

24.2 

27.5 


16.0 

19. 8 

25. 8 


13. 3 

21.2 

24.2 


取 a = 0 , 05,检验判断的根据是否影响判断的质量？得出你的结论? 


30. 



CD 光盘数据 


Paint 


广告中说四种不同涂料有相同的风干时间。为了检验生产商的广告，从每个涂料中检 
验5种样本。将每种涂料干到能涂第二层涂料的时间记录下来，得到如下 数据： 


涂料1 

涂料2 

涂料3 

涂料4 

128 

144 

133 

150 

137 

133 

143 

142 

135 

142 

137 

135 

124 

146 

136 

140 

141 

130 

131 

153 


在显著性水平 a =0.05 下，检验每种类型的涂料平均风干时间是否相等? 


31. —家著名汽车杂志对美国生产的三种中等型号顶级汽车进行行驶检测，并根据一系列的标准 
进行比较。为了检验汽油里程性能，从每个牌子中各选取5部车子进行500英里行驶检测。取 
a =0. 05,对其进行方差分析，判定三种类型汽车每加仑汽油平均行驶英里是否有显著差异。 


汽车 
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A 

B 

C 

19 

19 

24 

21 

20 

26 

20 

22 

23 

19 

21 

25 

21 

23 

27 


32. 参考练习29。利用费舍尔最小显著性差异方法检验所有可能配对比较。在进行检验后，得出 
你的结论，取 a =0.05。 

33. 参考练习31。利用费舍尔最小显著性差异方法检验所有可能配对比较。在进行检验后，得出 
你的结论，取 a =0.05。 


13.6 随机区组设计 


迄今为止我们讨论了纯随机设计。回顾在检验处理均值之间的差异值时，我们用比率来计算 
尸 值： 


MSTR 
= MSE 


(13.23) 


当试验单元同质时，纯随机设计有用。如果试验单元异质，可用“区组划分”形成 
同质性小组。 


当外在的因素（试验中没有考虑到的因素）引起的差异导致比率中的 MSE 项增加时，问题就出 
现了。此时，公式 （13.23) 中的 F 值减少。实际上差异是存在的，但 F 值给出了处理均值之间没 
有差异。 

在本节中我们将介绍一种称为 随机区组设计 (randomized block design ) 。其目的是通过剔除 
MSE 项中方差来控制方差的外部来源。这个设计给出了实际误差方差的最好估计，并且建立一个 
更好的假设来检验处理均值之间的差异。为了解释这个问题，我们以空中交通管制员工作压力研 
究为例。 

空中交通管制员的工作压力测试 

有一份衡量空中交通管制员疲劳和工作压力的研究报告，该报告建议修改和重新设计管制员 
的工作压力。在经过对这个工作站的几个设计考虑后，三种方案因其最有可能减少管制员压力而 
被选出。关键问 题是： 三种备选方案对于管制员压力的影响有多大差异？为了回答这一问题，我们 
需要设计一个试验来给出每个方案下空中管制员压力的度量。 
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在纯随机设计中，管制员的随机样本被分配给每个工作站。但是，一般认为管制员在处理压 
力局面时存在差异。一名管制员认为是高压力，可能另一名认为是中等，甚至又有另一名认为是 
小的压力。因此，考虑方差的组内来源 ( MSE ) 时，我们必须意识到方差包括随机误差，也可能包 
括个人管制员差异导致的误差。事实上，管制员希望个人差异是 MSE 项的最大来源。 

企业的经验性研究经常是高度混合的，结果是常常用到随机区组设计。 

使用随机区组设计方法将个人差异分离出来。这样的设计识别出来源于管制员个人差异的方 
差， 并将其从 MSE 中剔除。随机区组设计需要一个简单的管制员样本。在试验设计的术语中，将 
工作站称为兴趣 因子， 管制员为 区组， 与工作站因子相关的三个处理或总体分别对应着三个工作 
站方案。为了简单起见，我们称工作站方案为系统 A 、 系统 B 和系统 C 。 

在实验设计中区组划分类似于样本分层。 

随机区组设计中的随机是指将处理（系统）指派给管制员的顺序。如果每个管制员以相同的顺 
序检验这三种方案，任何观察到的系统差异都可能归因于检验的顺序，而不是系统中的真正差 
异。 

为了提供有用的数据，将三种工作站方案运用于俄亥俄州奥柏林的克利夫兰管制中心。随 
机选出6名管制员，并且指派他们操作每个系统。对于参加研究的每个管制员，随后的见面交 
谈及对每个管制员做的医疗检验，提供了每个管制员在每个系统下的压力的变量。表 13.6 给 
出了数据。 


表 13. 6 空中交通管制员压力检验的随机区组设计 


处理 




系统 A 

系统 B 

系统 C 


管制员 1 

15 

15 

18 


管制员 2 

14 

14 

14 

区组 

管制员 3 

10 

11 

15 

管制员 4 

13 

12 

17 


管制员 5 

16 

13 

16 


管制员 6 

13 

13 

13 


表 13.7 是收集的压力数据汇总。在这个表中我们有汇总列（处理）和汇总行（区组），以及 
一些样本均值。这些数据对于 ANOVA 方法中的平方和计算将有用。因为较低的压力值表示较 
好，故样本数据表示釆用系统 B ， 因为其平均压力为13。但是，一般的问题仍未 解决： 样本结果 
能否判断三个系统的总体平均压力水平不同?类似于纯随机设计中方差分析的计算可以用来回答这 
个问题。 
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表 13. 7 空中交通管制员工压力检验的压力数据汇总 




系统 A 

处理 

系统 B 

系统 C 

行或区组总计 


区组平均值 


管制员1 

15 

15 

18 

48 

X\. 

= 48/3 = 16.0 


管制员2 

14 

14 

14 

42 

Xl ， 

= 42/3 = 14.0 

区组 

管制员3 

10 

11 

15 

36 

元 3. 

= 36/3 = 12.0 

管制员4 

13 

12 

17 

42 

XA- 

= 42/3 = 14.0 


管制员5 

16 

13 

16 

45 

芡 5. 

= 45/3 = 15.0 


管制员6 

13 

13 

13 

39 

X6 - 

= 39/3 = 13.0 

行或处理总计 

81 

78 

93 

252 

X 

252 

；-^± = 0 

18 

处理均值 


x,=^ 

6 

= 13. 5 

78 

6 

= 13. 0 

X. 3=孕 

6 

= 15.5 




方差分析方法 

随机区组设计 ANOVA 方法将总的平方和分解为三个 部分： 处理平方和、区组平方和和误差 
平方和。分解形式 如下： 

SST = SSTR + SSBL + SSE (13.24) 

表 13. 8 所示的随机区组设计的 ANOVA 表汇总了这种平方和分解。表中记号分别 表示： 

fc = 处理的 个数； 

6 =区组的个数； 
tit =总的样本大小 （rar = kb)o 

表 13. 8 it 个处理、6个区组的随机区组设计的 ANOVA 表 


方差来源 

平方和 

自由度 

均方差 F 

处理 

SSTP 

k-l 

MSTR = SSTR MSTR/MSE 

k _ \ 




SSBL 

区组 

SSBL 

6-1 

MSBL = 

o — 1 

误差 

SSE 

(k-D(b-i) 

SSE 

MSE - ( k - l )( b ~ l ) 

总计 

SST 

rar — 1 



注意到 ANOVA 表说明了总的自由度 nr- 1 分解为处理自由度 k - l 、 区组自由度 6-1 和误 
差自由度 U-1)U-1) 之和，均方差列表示平方和被自由度除， MSTR/MSE 为用于检验处 
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理均值之间差异显著性的 F 比。随机区组主要作用是通过区组从 MSE 项中剔除个人管制员差 
异，并得到一个关于三个工作站方案压力差别的更好的检验。 

计算与结论 

为了计算随机区组设计中处理均值差异的 F 统计量，我们需要计算 MSTR 和 MSE 。 对于这两 
个均方，我们首先计算 SSTR 和 SSE 。 为此，我们必须计算 SSBL 和 SST 。 为了简化这个表达式， 
我们分四步计算。除了先前定义的 L 6和 财外， 另外引人下列 记号： 

叫=对应于区组 i 中处理 j 的观 察值； 

无 .j = 处理 y 的样本均值； 

Xi - =区组 i 的样本均值； 

;=总体样本均值。 

步骤 1. 计算总的平方和 （ SST ); 

b k 

SST = S I ( xij - x ) 2 

i=lj ~ 1 

步骤 2. 计算处理平方和 （ SSTR ); 

k 

SSTR =6 X ( S - j -") 2 

j=i 

步骤 3. 计算区组平方和 （ SSBL ); 

b 

SSBL = k ^( xi - - x ) 2 

i = l 

步骤 4. 计算误差平方和 ( SSE )。 

SSE = SST - SSTR - SSBL 

对于表 13.7 中的空中交通管制员数据，上述计算得到如下平 方和： 

步骤 1. SST = (15 - 14) 2 + (15 - 14) 2 + (18 - 14) 2 + …+ (13 - 14) 2 = 70 
步骤 2, SSTR =6[(13. 5 - 14) 2 + (13.0- 14) 2 + (15.5 - 14) 2 ] =21 
步骤 3. SSBL = 3[(16 - 14) 2 + (14 - 14) 2 + (12 - 14) 2 + (14 - 14) 2 + (15 -14) 2 + (13 - 14) 2 ] =30 
步骤 4. SSE =70-21 -30 = 19 

表 13. 9为平方和除以相应的自由度得到相应的均方值。检验处理均值之间的差异的 F 比率= 
MSTR/MSE = 10.5/1.9 = 5.53。 查附录 B 中表4的 F 值，我们得到 a = 0. 05 ， 分子自由度为2, 
分母自由度为10的 F 临界值为 4. 10。而 F = 5.53, 故我们拒绝原假设执： / x 1 =/ te = / x 3 , 得出在 
三个工作站方案下总体均值压力水平有差异的结论。 


(13.25) 


(13.26) 


(13.27) 


(13. 28) 
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表 13.9 空中交通管制员的压力检测的 ANOVA 表 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

21 

2 

10.5 

10.5/1.9=5： 53 

区组 

30 

5 

6.0 


误差 

19 

10 

1.9 


总计 

70 

17 




对于随机区组设计，需作一些说明。本节所讨论的试验设计是完全区组 设计； 完全一 词是指 
每个区组都属于所有个处理，也就是说，所有管制员（区组）在所有三个系统（处理）下受到检 
测。 不完 全区组设计是一些但不是全部的处理被运用于每个区组的试验设计。不完全区组设计的 
讨论超出这本书的范围。 

因为在空中交通管制员压力测试中，每个管制员要求使用所有三个系数，这种方法将保证是 
完全区组设计。在某些情况下，“区组划分”是根据区组中“相似”的试验单元划分的。例如， 
假定在空中交通管制员检测之前，管制员总体被分成从极高压力小组到极低压力小组。从每个压 
力小组中抽取3个参加这项研究，这个区组划分仍能实现。每个区组在同一压力小组中有三个管 
制员。 

最后，表 13.8 中的 ANOVA 表提供了检验处理影响而不是检验区组的 F 值。其原因是设计的 
试验是为了检验单个因子——工作站而设计的。基于个人压力差异的区组划分是为了从 MSE 项中 
剔除来自个人差异的方差而进行的，但是，该研究设计不是为了特别检验个人压力的差别。 

一些分析家计算 MSB / MSE 并用该统计量检验区组的显著性。然后利用得到的结论去验 
证，同类型的区组分组是否可用在将来的试验中。但是，如果个人压力差异是研究中的一个因 
子，应该设计一个不同的试验。区组的显著性不应该将个人压力差异作为第二个因素结论的依据。 



1, 第10章介绍的匹配样本£检验是两个区组 
的随机区组设计的一个例子。 

2. 随机区组设计的自由度要小于纯随机设计的 
自由度，因为6个区组导致减少 6-1 个自 


由度。如果 n 小，因为误差自由度的减 
少，区组的潜在影响将被 掩盖； 如果 n 很 
大，这种影响将被最小化。 



548 商务与经济统计 



方法 

34. 考虑下面随机区组设计的试验结果，并为建立方差分析表进行计算。 





处理 


自测题 


A 

B 

C 


1 

10 

9 

8 


2 

12 

6 

5 

区组 

3 

18 

15 

14 


4 

20 

18 

18 


5 

8 

7 

8 


取 a =0. 05,检验显著差异。 

35. 一个随机区组设计涉及5个处理和三个区组，得到以下 数据 ： SST = 430, SSTR = 310, SS - 
BL = 85。 建立 ANOVA 表并检验显著性差异，取 a =0.05。 

36. 对4个处理和8个区组进行试验，完成下面的方差分 析表： 

方差来源 平方和 自由度 均方差 F 

处理 900 

区组 400 

误差 

总计 1800 

取 a =0.05, 检验显著差异。 


应用 

37. —个汽车交易商进行测试并判断一个小型引擎启动所需分钟数是否与使用计算机引擎分析器 
或电子分析器有关。因为微型、中型和大型汽车的启动时间是不同的，使用了三种类型的汽车 
作为试验中的区组，得到以下 数据： 

_ 分析器 _ 

^计算机引擎分析器 电子分析器^ 

微型 50 42 

汽车 中型 55 44 

大型 


63 


46 





当 a =0. 05,检验任何显著差异? 


第 13 章方差分析与试验设计 549 


38. 就总的审计时间采用5种不同的审计方法进行比较。为了控制属于进行审计的个人的可能的 
方差，随机选取了四名会计为试验的一个区组。由 ANOVA 方法得到以下 数据 ： SST = 100, 
SSTR = 45, SSBL = 36。 取 a = 0.05, 检验 5 种审计方法平均总审计时间是否显著差异？ 


39. 选择字处理和数据管理系统的一个重要因素是需要多长时间学会这个系统。为了评价三个文 
件管理系统，一个公司设计一个涉及到5个字处理软件操作员的测试。因为操作员的不同被 
认为是一个显著的因素，对每位操作员都进行3种文件管理系统的培训，得到如下 数据： 


操 

作 

员 


2 

3 

4 

5 


系统 

A 

B 

C 

16 

16 

24 

19 

17 

22 

14 

13 

19 

13 

12 

18 

18 

17 

22 


40. 



CD 光盘数据 


Snow 


《美国医药协会杂志 》 （Journal of the American Medical Association ) 研究的一个报告考察 
了重体力铲雪对心脏的要求。10名健康男子进行了用脚踏车以及一种圆形曲柄测力计 
测试的运动。用一种轻型塑料雪铲和电动除雪器来铲除两堆重而湿的雪。把每个人铲 
雪时的心、血压、吸氧量以及感到的用力大小同用脚踏车和测力计测试时得到的数据 
进行比较。假定下表给出10个人的心率（每分钟跳动次数）的 数据： 


测试人 

脚踏车 

曲柄测力计 

雪铲 

除雪器 

1 

177 

205 

180 

98 

2 

151 

177 

164 

120 

3 

184 

166 

167 

111 

4 

161 

152 

173 

122 

5 

192 

142 

179 

151 

6 

193 

172 

205 

158 

7 

164 

191 

156 

117 

8 

207 

170 

160 

123 

9 

177 

181 

175 

127 

10 

174 

154 

191 

109 


用显著性水平 0. 05检验显著性差异。 


13.7 因子试验 

迄今为止的试验设计能得出一个因子的统计方法结论。但是，在一些试验中，需要得出关于 
多个变量或因子的结论。当要求同时得到关于两个或更多的因子的结论时， 因子试验 (factorial ex - 
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periments ) 以及相应的 ANOVA 计算都是有价值的设计。使用术语“ 因子” 是因为试验中将所有可 
能的因子组合起来。例如，对于因子 A 的 a 水平和因子 B 的6水平，那么将收集 d 处理组合的 
数据。在这节中我们将介绍两个因子的试验分析，这种方法可以扩展到两个以上的试验。 

作为两个因子的试验分析，我们将研究管理类研究生入学考试 ( GMAT )。 GMAT 是商学院为了 
评价申请人在该领域读研究生的能力的一种标准化考试， GMAT 的考分从200到800,分数越高 
表示能力越强。 

为了提高学生在 GMAT 考试中的分数，得克萨斯大学的一些学业招生考虑提供下面三种 
GMAT 辅导 课程： 

1.3 小时复习，内容覆盖了 GMAT 常考题型。 

2. 1小时练习，包括有关的考试资料，还有一次模拟考试并评分。 

3. 10个星期的强化班，包括发现考生个人的弱点并建立个人提高计划。 

因为，研究中其中一个因素是 GMAT 辅导课程，它有三个 处理： 3个小时复习，1个小时练 
习和10周课程。在选择采纳哪种辅导课程之前，需要进一步研究判断建议的课程对 GMAT 有何 
影响？ 

GMAT 考生来自三种 学院： 商学院、工学院和艺术与科学学院。所以试验中感兴趣的第二因 
子是考生的毕业学院是否影响 GMAT 分数。第二因子即毕业学院，选择有三个处理是商学、工学 
和艺术与科学。对应因子 A , 辅导课程有三种处理，对应因子 B ， 毕业三种处理，因此共有3 x 
3 =9处理组合。表 13. 10汇总了这些处理组合或试验条件。 


表 13. 10 两个因子 GMAT 试验的9个处理组合 


因子 A : 

3小时复习 

商学 

1 

因子 B : 毕业学院 

工学 

2 

艺术与科学 

3 

辅导课程 

1天课程 

4 

5 

6 


10周强化班 

7 

8 

9 


假定从表 13. 10中相应的9个处理组合中每个随机选出2个学生组成样本。两个商学院学生 
参加3个小时复习班，两个参加1天练习，两个参加10周课程。另外，对于每种三个辅导课程， 
各有两个工学院学生和艺术与科学学院学生参加。用试验设计术语说，每个处理组合的样本容量 
为2,则我们有2个复制 ( replications )。 其他的复制以及更大的样本容量也比较容易得到，为了减 
少本例中的计算，我们选择2个复制。 

试验设计要求从三个毕业学员中每一个随机地选取打算读研的6名学生。然后将每个学院的 
两个学生随机分配给每个辅导课程，这样在研究中共用了 18名考生。 

假定所有学生是随机选取的，参加辅导课程并且参加 GMAT 考试分数见表 13. 11。 

利用表 13. 11的数据进行方差分析可以回答下面的 问题： 

• 主影响（因子 A ): 辅导课程对 GMAT 考分的影响是否有不同？ 

• 主影响（因子 B ) :毕业学院对 GMAT 考分的影响是否有不同？ 
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• 交互影响（因子 A 和 B ): 是否某些学院的考生参加一种辅导课程比参加另一种辅导课程的 

GMAT 考分要高？ 

表 13. 11 两个因子试验的 GMAT 分数 



CD 光盘数据 
GMAT 


因子 B : 辅导课程 




商学 

工学 

艺术与科学 

因子 A : 

3小时复习 

500 

540 

480 



580 

460 

400 

学院 

1天课程 

460 

560 

420 



540 

620 

480 


10周强化班 

560 

600 

480 



600 

580 

410 


交互作用 （ intemction ) 是指一种新的影响。因为我们采用了因子试验，现在我们可以研究这种 
影响。如果交互影响对 GMAT 考分有明显作用，那么我们就能得出辅导课程效果依赖于毕业学院 
的结论。 


方差分析方法 

两个因子试验的 ANOVA 试验类似于纯随机试验和随机区组试验，因为我们还是将平方和与 
自由度按它们的来源分解。两个因子试验平方和分解的公式 如下： 


SST = SSA + SSB + SSAB + SSE 


(13.29) 


平方和与自由度的分解汇总于表 13. 12。利用下列的 记号: 
a =因子 A 的水平个数； 

6 =因子 B 的水平 个数； 
r - 复制个数； 

% =试验中观察值的总的数目； n T = abr 0 


表 13. 12 有 r 个复制的两个因子试验的 ANOVA 表 


方差来源 

平方和 

自由度 

因子 A 

SSA 

a - 1 

因子 B 

SSB 

6- 1 

交互作用 

SSAB 


误差 

SSE 

ab(r - 1 ) 

总计 

SST 

Jlf "" 1 


均方值 F 


MSA = 

SSA 

： a-1 

MSA 

MSE 

MSB = 

SSB 

MSB 

b _ 1 

MSE 

MSAB 

SSAB 

MSAB 

— (a - 1 )(6 - 1) 

MSE 

MSE = 

SSE 


ab(r - 1) 
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计算与结论 

为了计算检验因子 A 、 因子 B 和交互作用的显著性的 F 统计量，我们需要计算 MSA 、 MSB 、 
MSAB 和 MSE 。 为了计算这四个均方，我们必须首先计算 SSA 、 SSB 、 SSAB 和 SSE 。 

这样我们也可计算 SST 。 为了简化这个表达式，我们分五步进行计算。除了先前定义的 a 、 
6、 r 和 m ， 将使用下面的 符号： 

x ijk = 对应于来自因子 A 的第 i 个处理和因子 B 的第 . y 个处理的第 A 个复制的观 察值； 

=(因子 A ) 第；个处理样本 均值； 
x - j = (因子 B ) 第^/个处理样本均值； 

对应于（因子 A ) 第 i 个处理样本均值和（因子 B ) 第 y 个处理样本均值组合的样本 均值； 
冢=所有&个观察值的总样本均值。 

步骤 1 . 计算总的平 方和； 


a b r 

SST = X X XUr 完 ) 2 (13.30) 

i= I )=1 k =I 

步骤 2. 计算因子 A 的平 方和； 

a 

SSA = br^ (xi. ) 2 (13.31) 

» = I 

步骤 3. 计算因子 B 的平 方和； 

b 

SSB = ar'y'^x-j-x) 2 (13, 32) 

y=i' 

步骤 4. 计算交互作用的平 方和； 

a b 

SSAB = -x-j + ^) 2 (13.33) 

i = 1 )=1 

步骤 5. 计算误差平方和。 

SSE= SST - SSA- SSB- SSAB (13.34) 

表 13.13 列出了试验所收集的数据以及不同总和便于计算平方和。利用公式 （13. 30) 到 
(13.34)，我们得到 GMAT 两个因子试验中下列的平 方和： 

步骤 1. SST = (500 -515) 2 + (580-515) 2 + (540 -515) 2 + …+ (410 -515) 2 = 82450 
步骤 2. SSA = (3) (2) [(493. 33 -515) 2 + (513.33 -515) 2 + (538. 33 -515) 2 ] =6 100 
步骤 3. SSB = (3)(2) [(540— 515) 2 + (560 - 515) 2 + (445 -515) 2 ! = 45 300 
步骤 4. SSAB = 2[ (540 - 493. 33 - 540 + 515) 2 + (500- 493.33-560 + 515) 2 + …+ (445 - 

538. 33 -445 +515) 2 ] =11 200 
步骤 5. SSE = 82 450-6100-45 300-11 200 = 19 850 
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表 13. 14列出这些平方和除以他们相应的自由度并给出检验两个主要因子（辅导课程和毕业 
学院）和交互作用的适当均值。用于检验辅导课程差异的比率为1.38。当 a =0. 05,分子自由度 
为2,分母自由度为9时 F 临界值为4.26。而 F = 1.38, 我们不能拒绝原假设，得出参加三个辅 
导课程之间没有明显差异。但是，对于毕业学院的影响 ， F = 10. 27超过临界值 4. 26。因此，方 
差分析的结果能帮助我们得出毕业于三个不同学院学生 GMAT 考试分数有差异，也就是说，三个 
毕业于不同学院的学生参加相同课程而 GMAT 考试不一样。最后，交互作用值为 F = 1.27 (a = 
0.05 的临界值 F = 3. 63) 意味着我们不能判定显著的交互作用。所以，我们没有理由相信参加三 
种辅导课程对于不同学院的学生的 GMAT 考试影响不一样。 

表 13. 14 GMAT 的两个因子研究的 ANOVA 表 


方差来源 

平方和 

自由度 

均方差 

F 

因子 A 

6 100 

2 

3 050 

3 050/2 206 = 1. 38 

因子 B 

45 300 

2 

22 650 

22 650/2 206 = 10. 27 

交互作用 

11 200 

4 

2 800 

2 800/2 206 = 1.27 

误差 

19 850 

9 

2 206 


总计 

82 450 

17 




毕业学员是一个显著的因子。查看表 13. 13中的计算，我们得到样本 均值： 商学院的学生 
^.,=540, 工学院的学生无. 2 = 560,文艺与科学学院的学生 f 3 =445。因此，可以进行个别处理均 
值的 检验； 通过观察这三个样本均值，我们期望商学院和工学院的学生之间没有差别。但是，艺 
术与科学学院的学生参加辅导课后的 GMAT 明显比其他学院低。也许这些观察值将使这所大学考 
虑其他方法来帮助这个学院的学生参加 GMAT 考试。 

因为在中型和大型的因子试验中涉及到大量计算误差，计算机对方差分析计算的完成于汇总 
起重要作用。图 13. 6是 GMAT 两个因子试验方差分析的 Minitab 计算机输出的结果。 


SOURCE 

DF 

SS 

Factor A 

2 

6100 

Factor B 

2 

45300 

Interaction 

4 

11200 

Error 

9 

19850 

Total 

17 

82450 


MS 

F 

P 

3050 

1.38 

0.299 

22650 

10.27 

0.005 

2800 

1.27 

0.350 

2206 




图 13. 6 GMAT 两个因子设计的 Minitab 输出结果 
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方法 


41. 



自测题 


一个涉及到因子 A 的两个水平和因子 B 的三个水平的因子试验产生下面 数据: 

因素 B 


因子 A 



水平1 

水平2 

水平3 

水平1 

135 

90 

75 


165 

66 

93 

水平2 

125 

127 

120 


95 

105 

136 


检验显著的主影响与交互作用，取 o :=0.05。 

42. 对有四个水平的因子 A ， 三个水平的因子 B 和三个复制的因子试验进行计算，得到如下数 
据 ： SST = 280, SSA = 26, SSB = 23, SSAB = 175。 建立 ANOVA 表并对主影响和交互影响进行 
检验，取 a = 0. 05。 


应用 


43. 一家邮购公司设计了一个因子试验以检验杂志广告大小以及广告方案对于收到邮购要求数目 
(单位1000个）的影响。考察了三种广告方案和两种不同大小的广告，得到以下数据。利用因 
子设计的 A ^ OVA 方法检验广告设计类型、广告大小或交互作用的显著影响，取《 = 0.05 。 . 





广告大小 




小 


大 


A 

8 


12 



12 


8 

设计 

B 

22 


26 



14 


30 


C 

10 


18 



18 


14 


44. 一家游乐公园想通过使游客有效地上下游乐车来减少等待时间，提出了两种上下游乐车的方 
法。考虑各种游乐车类型的潜在差异以及上下方法与它们之间的交互作用，设计一个因子试 
验。利用下列数据，检验上下方法和游乐车类型以及交互作用的显著影响，取《=0.05。 




556 商务与经济统计 


45. 



CD 光盘数据 


Salaries 


游乐车类型 



木马 

过山车 

摩天轮 


41 

52 

50 

方法 1 

43 

44 

46 


49 

50 

48 

方法 2 

51 

46 

44 


美国劳工统计局收集不同职业的男性女性的收入情况。假定 Tampa Tribune 的一名 
记者想调查作为财务管理、计算机程序员、药剂师等不同职业男女之间周薪是否有明 
显的差异，从每个职业中分别选取5名男子和5名女子组成样本，样本中每个人的周 
薪记录下来，得到以下 数据： 


周薪（美元） 

职业 

性别 

872 

财务管理 

男 

859 

财务管理 

男 

1 028 

财务管理 

男 

1 117 

财务管理 

男 

1 019 

财务管理 

男 

519 

财务管理 

女 

702 

财务管理 

女 

805 

财务管理 

女 

558 

财务管理 

女 

591 

财务管理 

女 

747 

计算机程序员 

男 

766 

计算机程序员 

男 

901 

计算机程序员 

男 

690 

计算机程序员 

男 

881 

计算机程序员 

男 

884 

计算机程序员 

女 

765 

计算机程序员 

女 

685 

计算机程序员 

女 

700 

计算机程序员 

女 

671 

计算机程序员 

女 

1 105 

药剂师 

男 

1 144 

药剂师 

男 

1 085 

药剂师 

男 

903 

药剂师 

男 

998 

药剂师 

男 

813 

药剂师 

女 

985 

药剂师 

女 

1006 

药剂师 

女 

1034 

药剂师 

女 

817 

药剂师 

女 
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取显著性水平 a =0.05, 检验职业、性别以及交互作用的显著影响。 

46. 77 ie /4 ccoumi > igJ ? eyieM ； 的一份报告研究两种时间压力的水平(低和中）与三种知识水平（初级 、一 
般、熟练）对税收的关键词的选择上的各自影响和交互作用。调查的内容是一个税收案例，该 

案例包含一系列事实、税收问题和有1 336个关键词组成的关键词目录。要求被询问者选择他 
们认为能解决该税收案例的关键词。在试验之前，税收专家判定在目录中有19个相近的关键 
字。在初级一组中所选择的关键词有很少或没有一般的和熟练的知识，而在知识水平一般的 
一组中选择的明显是一般的知识，没有或很少有熟练的知识，在知识水平熟练的一组中所选 
择明显是一般的知识和熟练的知识。一般的知识包括了解应用税收条款以及描述这些条款相 
应项，熟练知识是指了解指导税收研究者研究的相关关键字的条款。对于时间压力不紧的情 
况，调查者要求在25分钟完成这个问题，在这个时间内完成将绰绰 有余； 对于时间压力中等 
的情况下，调查者要求在11分钟完成这个案例 （ 77 ie Accounting Review ， January 1995) 0 假定从 

6 个处理组合中每个选取 25, 每个组合中样本均值 如下： 

知识水平 




初级 

一般 

熟练 


低 

1. 13 

1.56 

2. 00 

时间压力 


(1-12) 

(1.33) 

(1.54) 


中 

0.48 

1.68 

2. 86 



(0. 80) 

(1.36) 

(1.80) 


利用 ANOVA 方法检验时间压力、知识水平和交互作用的显著检验。取显著性水平为 0.05, 
该试验的平方和为327.50。 



本章中我们介绍了如何用方差分析检验几个总体或处理方法之间的差异。我们介绍了纯随机 
设计、随机区组设计和两个因子试验。纯随机设计和随机区组设计用于对单个因子均值之差做推 
断。随机区组设计的目的是将外来的方差来源剔除误差项。这样的随机区组划分给出真实误差的 
更好的估计，并给出判断该因子总体或处理均值之间是否有明显差异的更好的检验。 

我们介绍了用于方差分析和试验设计的检验统计量的基础是建立总体方差 V 的两个独立估 
计量。在单因子情形下，一个估计量是基于处理间的 方差； 该估计量仅当均值叫，叫，…，叫相 
等时，才给出沪的无偏估 计量； 沪的第二个估计量是基于处理内部的方差，该估计量永远给出 
沪的无偏估计量。通过计算这两个估计量的比例 （F 统计量），我们建立了判断能否拒绝总体或处 
理均值相等的假设的拒绝域。在所有讨论过的试验设计中，平方和与自由度按其来源而进行分 
解，使我们能够计算方差分析计算和检验适当的数值。我们还介绍了费舍尔 LSD 方法和 Bonfemmi 
修正方法知何运用到对配对比较检验以决定哪些均值有差异。 
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术 语辨义 


ANOVA 表： 一种用来汇总方差分析计算和结果的表，它包括显示方差来源、平方和、自由度、 

均方和值。 

分解： 把总平方和与自由度划分成不同组成部分的过程。 

多重比较方法： 用于将进行匹配的总体均值加以比较的统计方法。 

比较性第一类错误 概率： 对应于单个配对比较的第一类错误概率。 

试验性第一类错误 概率： 几个配对比较中至少有1个犯第一类错误的概率。 

因子： 独立变量的另一说法。 

处理： 不同的因子水平。 

单因子 试验： 只涉及到有 A 个总体或处理的一个因子的试验。 

试验单元： 试验中研究的对象。 

纯随机 设计： 处理被随机地分配给试验单元的一种试验设计。 

区组 划分： 将每个处理中相同或相近的化为一组的过程。区组划分的目的是从误差项中剔除外来 
方差，并因此给出总体或处理均值之间差异的更好的检验方法。 

随机区组 设计： 采用区组划分的一种试验设计。 

因子 试验： 对两个或两个以上因子统计推断的一种试验设计。 

复制： 在一个试验中每个试验的重复次数。 

交互 作用： 当一个因子水平与另一个因子水平发生作用时，对反应变量的影响。 


重要公 



检验& 个总体均值的相等性 

第 J 个处理的样本平均值 





第 y 个处理的样本方差 


X (xij-Xj ) 2 



(13.1) 


(13.2) 
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总样本平均值 

k rii 

TlT 

(13.3) 


Tir = ^/ + 712 + • • * + m 

(13,4) 

处理均方 

SSTR 

MSTR= ^-1 

(13.7) 

处理平方和 

k 

SSTR = Y , nj ( xj ^) 2 

j = i 

(13. 8) 

误差均值 

AJ|C17 SSE 

MSE = , 

tit ^ k 

(13.10) 

误差平方和 

k 

SSE = ^ (rij - 1 )sf 

j = » 

(13.11) 

总体均值相等的检验统计量 

r MSTR 
^ = MSE 

(13 - 12) 

总的平方和 

k rij 

SST = X £(岣-冢 ) 2 

1 i = 1 

(13.13) 

总的平方和的分解 

SST = SSTR + SSE 

(13.14) 

多重比较方法 



检验统计量 

Xi - 

i = . - - 

、/mse (丄 + 丄） 

V Tli Tlj 

(13.16) 
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I 


费舍尔 LSD 方法 


纯随机设计 

处理平方和 


误差均方 


F 统计量 


随机区组设计 

总的平方和 


处理平方和 


区组平方和 


LSD = ta/2 



k 


MSTR = 




MSTR 
= MSE 


b k 

SST= X XU.， 2 

i = 1 j =\ 


SSTR = 6 X (^-;-^) 2 


SSBL = ^ X * 一 f ) 2 


(13.17) 


(13.20) 


(13.21) 


(13. 23) 


(13. 25) 


(13.26) 


(13.27) 


误差平方和 


SSE = SST — SSTR - SSBL 


( 13 . 28 ) 
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因子试验 

总的平方和 


因子 A 的平方和 


因子 B 的平方和 


交互作用的平方和 


误差平方和 


SST = 


a 

SSA = 6r ^ (xi • -f ) 2 



b 

SSB = ar ^ ) 2 


SSAB =r^ ^ (^y ~Xi- - 元 .）+ 笑 ） 2 



SSE = SST- SSA- SSB - SSAB 


(13.30) 


(13.31) 


(13.32) 


(13.33) 


(13.34) 


计免拣 


47. 两个居住区 4 小时销售最新的报价(单 元： 千美元）的简单随机样本的数据 如下: 


地区1 

地区2 

92 

90 

89 

102 

98 

96 

105 

88 


a . 利用第10章介绍的方法检验这两个地区平均报价是否一样，取《=0.05。 

b . 利用 ANOVA 方法检验平均报价是否一样。将你的分析与 （ a ) 的结果比较，取 cx =0.05。 

c . 假设从另一居住地收集的数据。从第三个地区的报价简单随机样本是81 000美元，86 000 
美元，75 000美元和90 000美元。对于这三个地区平均报价是否一样？取 a = 0. 05。 

48. 在目前的市场上体育比赛用的自行车以及一般载人的自行车的购买者发现有很大的选择余 
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CD 光盘数据 


Trucks 


地。对大多数购买者来说，其中一个也是最重要的一个因素是自行车的转售价格。下 
面的表中给出10种体育比赛用的自行车、10种轻便型自行车以及10种重型自行车2 
年之后的转售价格 （ Kilplinger’s New Cars & Trucks 2000 Buyer 1 s Guide ) 0 

比赛用车 转售价格 轻便车 转售价格 

Chevrolet Blazer LS 55 Chevrolet S-10 Extended Cab 46 


Ford Explorer Sport 

57 

GMC Yukon XL 1500 

67 

Honda CR-V 

65 

Isuzu VehiCross 

62 

Jeep Cherokee Limited 

57 

Mercury Mountaineer 

59 

Nissan Pathfinder XE 

54 

Toyota 4 Runner 

55 

Toyota RAV4 

55 


重型车 

Chevrolet K2500 
Chevrolet Silverado 2500 Ext 
Dodge Ram 1500 
Dodge Ram Quad Cab 2500 
Dodge Ram Regular Cab 2500 
Ford FI 50 XL 
Ford F-350 Super Duty Crew Cab XL 
GMC New Sierra 1500 Ext Cab 
Toyota Tundra Access Cab Limited 
Toyota Tundra Regular Cab 


Dodge Dakota Club Cab Sport 53 

Ford Ranger XLT Regular Cab 48 

Fork Ranger XLT Supercab 55 

GMC Sonoma Regular Cab 44 

Isuzu Hombre Spacecab 41 

Mazda B4000 SE Cab Plus 51 

Nissan Frontier XE Regular Cab 51 

Toyota Tacoma Xtracab 49 

Toyota Tacoma Xtracab V6 50 


转售价格 
60 
64 
54 

63 
59 
58 

64 
68 
53 
58 


49. 



取显著性水平 a =0. 05,检验三种类型的自行车的平均转售价格是否相同。 

下面是关于在食品、零售和个人护理行业的大型公司的12名董事长的年龄的数据 
(Advertising Age , December 1, 1997) : 


CD 光盘数据 
AgeExec 


公司 

行业 

董事长 

年龄 

Campbell Soup Co. 

食品 

Dale F. Morrison 

48 

General Mills 

食品 

Stephen W. Sanger 

51 

Kellogg Co. 

食品 

Arnold G. Langbo 

59 

RJR Nabisco 

食品 

Stephen F. Goldstone 

51 

Estee Lauder Cos. 

个人护理 

Leonard A. Lauder 

64 

Gillette Co. 

个人护理 

Alfred M. Zeien 

67 

Procter & Gamble Co. 

个人护理 

John E. Pepper 

59 

Unilever 

个人护理 

Morris Tabaksblat 

59 

Federated Department Stores 

零售 

James W. Zimmerman 

53 

J. C. Penny Co. 

零售 

James E. Oesterreicher 

55 

Sears Roebuck & Co . 

零售 

Arthur C. Martinez 

57 

Kmart Corp . 

零售 

Floyd Hall 

58 
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50. 



CD 光盘数据 
Satisjob 


51. 



CD 光盘数据 


Resorts 


在显著性水平 a =0.05 下，检验三个行业的公司的董事长的平均年龄是否存在明显的 
差异？ 

《小企业管理 》 （Jorunal of Small Business Maria 尽 eme 批)报道的一个研究表明，自己当老板 
与被人雇用相比较，不能感受到高职位的满足感。在这个研究中，工作满足感被分为 
18 个等级，并且每个项目都用 Likert 测量法评定。评定范围分为 1 一 5 个选项，从十分 
强烈到十分不满。在这次评定中，高分意味着较高的工作满足感。 18 项评定的总和从 
18—90, 用这个总和作为评定工作满足感的尺度 （Journal of Small Business Manage ¬ 
ment ^ October 1997 ) 。 假定用这种方法来测量律师、理疗师、木工师和系统分析师职 
业的满足感，由 40 个人组成的样本中得到每种职业的结果资料 如下： 


律师 

理疗师 

木工师 

系统分析师 

44 

55 

54 

44 

42 

78 

65 

73 

74 

80 

79 

71 

42 

86 

69 

60 

53 

60 

79 

64 

50 

59 

64 

66 

45 

62 

59 

41 

48 

52 

78 

55 

64 

• 55 

84 

76 

38 

50 

60 

62 


在显著性水平 a=0.05 下，检验四个职业的满足感是否存在差异。 

Crown Plaza 旅馆和度假胜地对全国范围的风景居住区的旅馆提供特殊周末价格。全国 
三个不同地区的 30 家旅馆提供了房间价格的数据 （ Today , April 14, 2000 ) 。 


西部 价格 

( 美元） 

南部 

价格 ( 美元） 

西北部 

价格 ( 美元 ) 

Albuquerque 

89 

Atlanta 

105 

Albany 

89 

Irvine 

79 

Dallas 

80 

Boston 

139 

Las Vegas 

119 

Greenville 

79 

Hartford 

85 

Los Angeles 

99 

Houston 

79 

New York 

159 

Palo Alto 

109 

Jackson 

69 

Philadelphia 

99 

Phoenix 

149 

Macon 

69 

Pittsfield 

99 

Portland 

79 

Miami 

89 

Providence 

149 

San Francisco 

139 

Orlando 

119 

Washington 

159 

San Jose 

99 

Richmond 

109 

White Plains 

109 

Seattle 

119 

Tampa 

119 

Worchester 

124 
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52. 



CD 光盘数据 


在显著性水平 a = 0.05 下，检验三个地区的房间平均价格是否相同。 

由会计事务所 Altschuler ， Melvoin &Glasser 对广告代理人的第六个年度调查表明，广告 
代理人可期待另一个有较好的广告牌回报年份 （Advertising Age , December 1, 1997 ) 。 为 
了调查设计总监的每年的报酬是否存在差异，假设从四个地区 ：西、 南、中北和东北各 
选出10个设计总监作为一个样本。每个人的基本年薪样本数据 如下： 


AirDir 

西 

南 

中北 

东北 


60.9 

50. 8 

49.5 

65.9 


45.9 

39.6 

42.3 

58.6 


62. 1 

44.2 

35.5 

49.3 


66. 6 

40.0 

49. 1 

52.9 


68.0 

53.9 

56.7 

48.5 


65.0 

45.4 

41.4 

52.9 


49.4 

61. 1 

51.3 

52.4 


62.3 

42.3 

49.4 

48. 1 


62.6 

38.4 

42. 1 

46.5 


57.2 

38.3 

55.7 

45.9 


53. 



CD 光盘数据 
NFL 


在显著性水平 a=0.05 下，检验四个地区的设计总监的基本年薪是否相同。 

美国橄榄球联赛对每个候选人按其位置评比打分，打分范围从 5 分到 9 分。评定分数 
如下： 8 — 9 表示应该立即参加 比赛； 7.0—7.9 表示可以打 比赛； 6.0—6.9 表示应作 
为二线队员 储备； 5.0 — 5.9 表示应进入俱乐部进行培训。下面表是关于对三个位置上 
的 40 名新的候选人进行打分的资料 （ April 14, 2000) 0 检验球员不同位置 
分值之间是否有差异？ 


接球手 后卫 截球手 


姓名 

分数 

Peter Warrick 

9.0 

Plaxico Burress 

8.8 

Sylvester Morris 

8.3 

Travis Taylor 

8. 1 

Laveranues Coles 

8.0 

Dez White 

7.9 

Jerry Porter 

7.4 

Ron Dugans 

7.1 

Todd Pinkston 

7.0 

Dennis Northcutt 

7.0 

Anthony Lucas 

6.9 

Darrell Jackson 

6. 6 

Danny Farmer 

6. 5 

Sherrod Gideon 

6.4 

Trevor Gaylor 

6.2 


姓名 

分数 

Cosey Coleman 

7.4 

Travis Claridge 

7.0 

Kaulana Noa 

6.8 

Leander Jordan 

6.7 

Chad Clifton 

6.3 

Manilla Savea 

6. 1 

Ryan Johanningmei 

6.0 

Mark Tauscher 

6.0 

Blaine Saipaia 

6.0 

Richard Mercier 

5.8 

Damion McIntosh 

5.3 

Jeno James 

5.5 

AlJackson 

5.5 


姓名 

Chris Samuels 
Stockar McDougle 
Chris Mclngosh 
Adrian Klemm 
Todd Wade 
Marvel Smith 
Michael Thompson 
Bobby Williams 
Darnell Alford 
Terrance Beadles 
Tutan Reyes 
Greg Robinson-Ran 6. 0 


分数 

8.5 

8.0 


6 


6 

6 

6 

6 

6 . 


4 

3 
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54. 在纯随机试验设计中，对三种牌子的纸+的吸水能力检验0用相同规格的纸+，并将每种牌 
子的纸+分为四部分对其检验。吸水能力检验如下，取显著性水平为0.05,三种牌子的吸水 
能力是否有显著差异？ 

牌子 


X 

J 

Z 

91 

99 

83 

100 

96 

88 

88 

94 

89 

89 

99 

76 


55. 



CD 光盘数据 
MktPert 


下面是道琼斯工业指数中的6个主要项的4年变动的百分比。问主要项对股票市场性 
能的影响是否显著？取 a =0.05。 


第一年 

第二年 

第三年 

第四年 

10,9 

-18.9 

15.2 

4.3 

-15.2 

4.8 

6. 1 

14.6 

-16.7 

-27.6 

38.3 

17.9 

-17.3 

-3. 1 

4.2 

14.9 

-9.2 

19.6 

20.3 

-3.7 

27.7 

22. 6 

2.3 

11. 8 

27.0 

-4.3 

20.3 

4.2 

13.7 

2. 1 

33.5 

26.0 


56. 



CD 光盘数据 
Assembly 


对一种新产品提出三种不同的装配方法。用纯随机试验设计来判断哪种方法每个小时 
组装产品数目最多。随机选择30个工人，并将其分别分配给其中一种方法。每个方法 
生产的产品数 如下： 


方法 

A 

B 

C 

97 

93 

99 

73 

100 

94 

93 

93 

87 

100 

55 

66 

73 

77 

59 

91 

91 

75 

100 

85 

84 

86 

73 

72 

92 

90 

88 

95 

83 

86 
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根据这些数据，检验每种方法生产的产品数量是否相等，取《 = 0.05。 

57. Hargreaves 汽车零件有限公司想比较四种不同类型的刹车套管的平均使用里程数。每种类型生 
产30个套管，并且安装在出租车队中。每个套管一直使用到不能满足联邦安全标准的要求为 
止，并记录下其里程数，计算每种类型的套管的平均里程数。数据 如下： 


类型 

样本容量 

样本均值 

样本标准差 

A 

30 

32 000 

1 450 

B 

30 

27 500 

1 525 

C 

30 

34 200 

1 650 

D 

30 

. 30 300 

1400 


检验相应的总体均值是否相等，取 a = 0.05。 

58. 电子玩具和计算器的电池的生产商考虑三种新的电池设计。对这三种设计进行检验，判断每 
种电池的平均寿命是否相同？ 


设计 A 

设计 B 

设计 C 

78 

112 

115 

98 

99 

101 

88 

101 

100 

96 

116 

120 


检验总体均值是否相等，取 ct =0.05。 


59. 



CD 光盘数据 


为了调查购买者的光顾行为，每个购物者被分为不光顾者、不经常光顾者或经常光顾 
者。在调查中，对于每个购物者进行测量，确定购物者在商场中的舒适程度，分值高 
表示舒适程度越高，假定从相关的研究中得到如下 资料： 

不光顾者 不经常光顾者 经常光顾者 


Browsing 


4 

5 


5 

6 


5 

7 


6 




4 



3 7 4 

4 4 6 


5 

4 




a . 取（^ = 0.05,检验三种类型的光顾者的舒适水平是否有差异。 

b . 利用费舍尔的 LSD 方法比较不光顾者和不经常光顾者的舒适水平，取《=0.05,得 
出你的结论。 


60. 一研究所检验三种牌子的汽油每加仑里程数的性能。因为对于不同牌子的汽车，不同汽油的 
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性能不一样，选取五种牌子的汽车，在试验中把每种牌子作为一个区组。也就是说，每个牌子 
的汽油用各种不同牌子汽车进行检验。试验结果(每加仑里程数) 如下： 


汽车 




汽油牌子 



I 

n 

n 

A 

18 

21 

20 

B 

24 

26 

27 

C 

30 

29 

34 

D 

22 

25 

24 

E 

20 

23 

24 


取显著性水平 a=0. 05, 这三种牌子的汽油的平均每加仑里程数性能是否存在差异？ 


61. 根据练习 60 中的试验数据，用纯随机设计 ANOVA 方法进行分析。将其结果与练习 60 比较， • 
对于设法移除区组影响的优点是什么？ 


62. 



CD 光盘数据 
ISP 


每月 Internet Magazine 报告 100 多家网络设备供应商 ( Internet service providers, ISP) ， 其 
目的是调查 ISP 的利用率以及下载一定数量的网页的联接速度（以秒为计）。下面是关 
于 22 家 ISP 的网站在美国、英国和欧洲下载的时间的数据《网络杂志 》 (Internet Mag ¬ 
azine ， January 2000) : 


ISP 

英国 

美国 

欧洲 

Abel Gratis 

10. 62 

14.64 

17,08 

Breathe 

11.67 

14. 14 

19. 86 

btclick. com 

12. 12 

16.43 

21.30 

Bun 

11. 13 

14. 09 

15. 83 

Cable & Wireless Life 

9. 99 

13.07 

18.43 

con X 

12. 63 

15.97 

22. 12 

Freebeeb 

11.71 

15. 52 

19. 57 

Free-Online 

13.77 

13.98 

23. 35 

Freeserve 

10.65 

13. 62 

25. 56 

FreeUK 

12. 20 

14.96 

18.95 

Icom-Web 

9. 62 

11. 66 

15.91 

IPNet 

13. 82 

16.70 

22. 86 

I-way Soho 

14. 86 

12. 86 

19. 32 

LineOne 

12. 01 

17. 82 

21, 88 

Madasafish 

13.38 

15.59 

19.61 

NetDirect Online 

11.71 

15.52 

19. 57 

Netscape Online 

10. 84 

12. 66 

16. 52 

Screaming, net(BT Line) 

13.23 

15.91 

23.08 

Telinco Internet Services 

12. 83 

15.34 

18.76 

UK Online 

10.39 

13.28 

21.04 

UKPeople 

13. 79 

19. 82 

19. 76 

Virgin Net 

12. 17 

15.47 

21.94 
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取《 = 0.05，网站在不同国家平均下载时间是否有明显差异？ 

63. 设计一因子试验来检验两种计算机语言翻译外语所需时间是否有明显差异。在语言翻译中需 
要考虑一个重要 因素： 所翻译的语言种类，用两个系统翻译成三种不同 语言： 西班牙、法语 
和德语。翻译所需时间的资料 如下： 


语言 



西班牙语 

法语 

德语 

系统 1 

8 

10 

12 

系统 2 

12 

14 

16 


6 

14 

16 


10 

16 

22 


检验语言翻译机、语言类型以及交互作用的差异是否显著？取 a =0.05。 

64. 一个制造商设计一个因子试验来判断两个机器生产出有缺陷的产品数目是否不同，并且判断 
是否有缺陷产品数量与每个机器所需的原材料是人工装载还是自动传输有关 D 下面数据给出 
生产有缺陷产品的数量。取 a 二0.05,机器类型、装载系统和交互作用的差异是否显著？ 


装载系统 



手工 

自动 

机器 1 

30 

30 


34 

26 

机器 2 

20 

24 


22 

28 


案例研究1 WENTWORTH 医疗中心 



CD 光盘数据 
Medical 1 


作为对65岁以上的人长期研究的一部分，纽约北部地区的 Wentworth 医疗中心的 
社会学家和心理学家调査地理位置和患抑郁症之间的关系 o 由60个健康人组成一个样 
本，20人居住在佛罗里达，20人居住在纽约，20人居住在北卡罗来纳。对每个人进 
行测量抑郁症标准化测验。收集到的数据 如下： 分值越高表示抑郁症程度越深^这些数 



CD 光盘数据 
Medical2 


据存储在 CD 光盘上的文件 Medical 1中。 

研究的第二部分是考察地理位置与65岁以上患有诸如关节炎、髙血压和/或心脏 
失调慢性病之间的关系。对于这种身体状况的人也抽出60人。20人居住在佛罗里 
达，20人居住在纽约，20人居住在北卡罗来纳。这次研究记录的抑郁症程度资料如下， 
这些数据在 CD 光盘上的文件 Medical 2中。 
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Medicall 的数据 Medical 2 的数据 


佛罗里达 

纽约 

北卡罗来纳 

佛罗里达 

纽约 

北卡罗来纳 

3 

8 

10 

13 

14 

10 

7 

11 

7 

12 

9 

12 

7 

9 

3 

17 

15 

15 

3 

7 

5 

17 

12 

18 

8 

8 

11 

20 

16 

12 

8 

7 

8 

21 

24 

14 

8 

8 

4 

16 

18 

17 

5 

4 

3 

14 

14 

8 

5 

13 

7 

13 

15 

14 

2 

10 

8 

17 

17 

16 

6 

6 

8 

12 

20 

18 

2 

8 

7 

9 

11 

17 

6 

12 

3 

12 

23 

19 

6 

8 

9 

15 

19 

15 

9 

6 

8 

16 

17 

13 

7 

8 

12 

15 

14 

14 

5 

5 

6 

13 

9 

11 

4 

7 

3 

10 

14 

12 

7 ‘ 

7 

8 

11 

13 

13 

3 

8 

11 

17 

11 

11 


管理报告 

1. 用描述统计方法汇总这两个研究的数据。对于抑郁症的得分，得出你初步观测结果。 

2. 对这两个数据集使用方法分析，列出每种情况下的假设，得出你的结论。 

3. 用推断法来说明单个处理均值的合理性。 

4. 讨论这个研究的推广和你认为有用的其他分析。 


案例研究2工业产品销售员的报酬 



在过去的10年里，《工业产品销售》 （ —直在跟踪调査工业产 
品销售员的报酬。在1997年报酬调查中，有358名回答者的结果 表明： 有27%的回 
答者在销售额大于4 000万美元的销售公司工作，其中一般的工业销售员在1 200万美 


元的销售公司工作。在中小型公司（销售额在600万一2000万美元之间）工作的销售 

IDSalary 

额的收入比在大公司工作要高。报酬最低的销售员在销售额小于100万美元的公司工 
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作。1996年一般的户外销售员报酬为50 000美元，而一般的户内销售员报酬为30 000 
美元 （Industrial Distribution , November , 1997) 0 假定在较大的旧金山地区工业产品销售 
员的一个分会，进行了关于会员资格的一次调查，以研究雇员资历与在户外或室内场 
所销售的年薪之间是否有关系。在这个调查中，被调查者分为三个资历 水平： 低（1一 
10年）、中 （11— 20年）和高 （21 年及以上）。所采用的资料如下，.完整的数据集包含 
120个观察值，存储在 CD 光盘的文件 IDSalary 中。 


观察值 

薪水 ( 美元） 

场所 

资历 

1 

28 938 

Inside 

Medium 

2 

27 694 

Inside 

Medium 

3 

45 515 

Outside 

Low 

4 

27 031 

Inside 

Medium 

5 

37 283 

Outside 

Low 

Low 

6 

32 718 

Inside 

7 

54 081 

Outside 

High 

8 

23 621 

Inside 

Low 

9 

47 835 

Outside 

High 

10 

29 768 

Inside 

Medium 

115 

33 080 

Inside 

High 

116 

53 702 

Outside 

Medium 

117 

58 131 

Outside 

Medium 

118 

32 788 

Inside 

High 

119 

28 070 

Inside 

Medium 

120 

35 259 

Outside 

Low 


管理报告 

1. 用描述性统计汇总数据。 

2. 不考虑销售员的资历，建立所有销售员平均年薪的95%置信区间。 

3. 建立户外销售员平均年薪的95%置信区间，将你得到的结果与《工业产品销售》报告的全 
国值比较。 

4. 建立户内销售员平均年薪的95%置信区间，将你得到的结果与《工业产品销售》报告的全 
国值比较。 

5. 不考虑销售员的资历，建立户外销售员与户内销售员平均年薪的均值差的95%置信区 
间，得出你的结论是什么？ 

6. 用样本方差分析方法检验属于场所的显著差异，设显著性水平为0.05,不考虑销售员的资历。 

7. 用样本方差分析方法检验属于场所的显著差异，设显著性水平为0.05,不考虑场所的影响。 

8. 在显著性水平为 0.05 下，检验场所、资历和两者交互作用显著性差异并计算关于某个处 
理的均值，用推断法说明其合理性。 
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附录13 • 1用 Minitab 进行方差分析和试验设计 


单因素观察研究和纯随机设计 


在 13. 2节中我们介绍了利用观测得到的资料，用方差分析来检验个总体均值的相等性。在 
13. 5节中我们介绍了在纯随机设计中搜集资料的情形下，如何用相同的方法来检验个总体均值的 
相等性。为了解释在上述情况下，如何用 Minitab 检验个总体均值的相等性，以 13. 1节中介绍的 
国家计算机产品公司为例，介绍了如何检验每个工厂的平均考试分数是否一致。将考试分数输入 
Minitab 工作表的前三 列：其 中第一列为亚特兰大的数据，第二列为达拉斯的数据，第三列为西雅图 



CD 光盘数据 
NCP 


的数据。利用 Minitab 按下列步骤得出输出结果，见图 13.4 。 

步骤 1 . 选择 Stat 下拉 菜单； 

步骤 2. 选择 ANOVA; 

步骤 3_ 选择 Oneway(Unstacked) 选项； 

步骤 4. 出现 Oneway Analysis of Variance 对话框后： 


在 Responses (in separate columns ) 框中输人 Cl - C3 ； 


点击 OK 。 


随机区组设计 

在 13. 6节中我们介绍了根据从随机区组设计得到的资料，如何用方差分析来检验个总体均值 
的相等性。为了说明对这类试验设计如何用 Minitab ， 我们介绍如何检验空中交通管制员在三个工 
作站的平均压力是否相等。将表 13.6 中的压力水平值输入 Minitab 工作表的第一列。对处理进行 
编号，1表示系统 A ， 2表示系统 B , 3表示系统 C ， 将处理编号输入工作表的第二列。最后，每 
个管制员对应的序号（1，2, 3, 4, 5, 6) 输入工作表的第三列。因此，工作表的第一行值为15, 
1，1;第二行为15, 2, 1;第三行为18, 3，1;第四行为14, 1，2，以此类推。利用 Minitab 按 
下列步骤得出相应的 ANOVA 表的输出结果，见表 13. 9。 

步骤 1. 选择 Stat 下拉 菜单； 

步骤 2. 选择 ANOVA; 

步骤 3. 选择 Two-way 选项； 

步骤 4. 出现 Two-way Analysis of Variance 对话框后： 

在 Response 框中输人 Cl ; 

在 Row factor 框中输人 C 2; 


在 Column factor 框中输入 C 3 ; 
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选择 Fit additive model ； 

点击 OK 。 


因子试验 


在 13.7 节中我们介绍了根据从因子试验中得来的数据，如何用方差分析来检验 A 个总体均 
值的相等性。为了解释如何用 Minitab 对这类试验设计来检验，我们以两因子 GMAT 试 
验为例来介绍如何分析这些数据。将表 13. 11中的 GMAT 分数输入 Minitab 工作表中的 
第 一列； 第二列为因子 A ; 第三列为因子 B 。 将因子 A 学员编号1为3小时的复习，2 
为一天的程序，3为10周的课程，将因子 A 编号值输入工作表的第二列。将因子 B 学 
cd 光盘数据员编号，1为商学， 2 为工学， 3 为艺术与科学，将因子 B 的编号值输入第三列。因 
GMAT 此，工作表的第一行值为500，1，1;第二行值为580，1, 1;第三行值为540, 1， 



2;第四行值460，1，2;依次类推。利用 Minitab 按下列步骤得出相应的 AN 0 VA 表的 


输出结果，见图13.6。 

步骤 1. 选择 Stat 下拉 菜单； 

步骤 2. 选择 ANOVA ; 

步骤 3. 选择 Two-way 选项； 

步骤 4. 出现 Two-way Analysis of Variance 对话框后: 
在 Response 框中输入 Cl ; 

在 Row factor 框中输入 C 2; 

在 Column factor 框中输入 C 3 ; 

点击 OK 。 


附录 13. 2用 Excel 进行方差分析和试验设计 


单因素观察研究和纯随机设计 


在 13. 2节中我们介绍了利用观测得到的资料，如何用方差分析来检验个总体均值的相等性。 
在 13.5 节中我们介绍了在纯随机设计中搜集资料的情形下，如何用相同的方法来检验个总体均值 
的相等性。为了解释在上述情况下，如何用 Excel 检验个总体均值的相等性，以 13.1 节中介绍的 
美国计算机产品公司为例，我们介绍了如何检验每个工厂的平均考试分数是否一致。 
将考试分数输人工作表 A 、 B 、 （:列 中第二列到第七列，见图13.7。注意工作表的 A 、 
B 、 C 列第一行单元格为亚特兰大、达拉斯和西雅图。按照下面步骤得出的输出结果显 



CD 光盘数据 
NCP 


示在单元 A 10： G 24; 相应的 AN 0 VA 表的部分输出结果见表 13. 2, 


步骤 1. 选择 Tools 下拉 菜单; 
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步骤 2* 选择 Data Analysis ; 

步骤 3 . 从 AnalysisTools 中选择 Anova: Single-Factor ； 
点击 OK 。 

步骤 4 •出现 Anova : Single-Factor 对话框后： 

在 Input Range 框中输人 A1 : C7 ; 

选择 Columns; 

选择 Labels in First Row ； 

选择 Output Range, 并且在对话框中输入 A10; 
点击 OK 。 



图 13. 7 利用 Excel 对 NCP 例子进行方差分析的输出结果 


随机区组设计 



CD 光盘数据 
AirTrat 


在 13. 6 节中我们介绍了从随机区组设计得到的资料，如何用方差分析来检验个总 
体均值的相等性。为了说明对这类试验设计如何用 Excel , 我们介绍如何检验空中交通 
管制员在三个工作站的平均压力是否相等。将表 13. 6 的压力水平值输入工作表 B 、 C、D 
列的第二行到第七行，见图 13. 8 Q A 列第二行到第七行的单元格为每个管制员的序号 


(1 ， 2,3,4,5,6) 。利用 Excel 按下列步骤得到相应的 ANOVA 表的输出结果见表 13.9 。 
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步骤 1. 选择 Tools 下拉菜单； 

步骤 2 . 选择 Data Analysis; 

步骤 3 ,从 AnalysisTools 中选择 Anova: Two-Factor Without Replication 

点击 OK; 

步骤 4 .出现 Anova : Two-Factor Without Replication 对话框后： 

在 Input Range 框中输人 A 1 : D 7; 

选择 Labels ； 

选择 Output Range, 并且在对话框中输人 A10; 

点击 OK 。 
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因子试验 

在 13. 7节中我们介绍了根据从因子试验中得来的数据，如何用方差分析来检验个总体均值的 
相等性。为了解释如何用 Excel 对这类试验设计来检验,我们以两因子 GMAT 试验为例来介绍如 
何分析这些数据。将表 13. 11中的 GMAT 分数输入工作表的 B 、 C 、 D 列的第二行到第七行，见图 
13.9。按下列步骤得到输出结果显示在单元格 A 10: G 45， 相应的 ANOVA 表的部分输出结果显示 
在表 13. 14中。 
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图 13.9 利用 Excel 对两个因子 GMAT 试验检验的输出结果 
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CD 光盘数据 
GMAT 


步骤 1. 选择 Tools 下拉 菜单； 

步骤 2 . 选择 Data Analysis ； 

步骤 3 . 从 AnalysisTools 中选择 Anova: Two-Factor With Replication 

点击 OK; 

步骤 4 . 出现 Anova : Two-Factor With Replication 对话框后： 

在 Input Range 框中输入 Al: D7 ； 

在 Rows per sample 框中输人 2; 

选择 Output Range ， 并且在对话框中输人 A10; 

点击 OK 。 


V. 



筒单线性回归 


统计实例 ：宝丽 来公司 
14. 1 简单线性回归模型 

回归模型和回归方程 
估计回归方程 

14.2 最小二乘法 
14.3 判定系数 
相关系数 
14.4 模型假设 
14.5 显著性检验 
o 2 的估计 
t 检验 

A 的置信区间 
F 检验 

关于显著性检验解释的几点注意 

14.6 利用估计回归方程进行估计和预测 

点估计 
区间估计 

y 的均值的置信区间估计 
个别 y 值的预测区间估计 

14.7 计算机方法 

14.8 残差 分析: 验证模型假定 

关于％的残差图 
关于：？的残差图 
标准残差 
正态概率图 

14.9 残差分析 :异常 值和有影响的观察值 

检测异常值 
检测有影响的观察值 
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宝丽来公司* 

剑桥，马萨诸塞州 

1947 年，宝丽来公司创始人 Edwin Land 博士宣 
布一分钟成像技术已研发成功，公司已开展大众摄 
影的业务。宝丽来第一台照相机和第一卷肢卷诞生 
于 1949 年。在那以后，宝丽来公司在化学、光学和电 
子学方面进行试验和开发，生产出更高质量、更高可 
靠性和更为便利的摄影系统。 

宝丽来公司的另一项主要业务是专门的和工业 
的照相技术，主要致力于宝丽来即时显像技术。这项 
技术在当今可视通讯环境下，逐渐成为日益增长的 
成像系统的主要组成部分。为此，宝丽来公司生产出 
大量不同种类的一次成像摄影系统、照相机、部件和 
肢片，以供专业摄影、工业、科学和医药应用。公司还 
在磁学、太阳镜、工业偏振镜、化工、传统涂料和全息 
摄影领域有业务。 

用于衡量摄影材料感光度的测光计，可以提供 
胶片特性的信息，比如它的曝光时间范围。在宝丽来 
中心感光实验室中，科学家们将一次成像胶片置于 
适当的温度和湿度下，使之近似于消费者购买后的 
保存条件，然后再将其系统地抽样检验并进行分 
析。为了研究宝丽来彩色专业打印胶片感光速度和 
保存时间的关系，宝丽来中心感光实验室抽取保存 
时间从 1—13 个月（生产之后的时间）不等的肢片。 
数据表明胶片感光速度随着时间增加而递减，肢片 
感光速度和胶片保存时间的关系可以近似用一条直 
线或线性关系表示出。 

* 感谢摄影材料质量管理经理 Lawrence Friedman 提供 
统计应用资料 。 



回归分析帮助宝丽来提高胶片性能以满足顾客的需求, 
④ Joe Higgins / South - Western . 


利用回归分析，宝丽来建立感光速度与保存时 
间之间的方程式。 

y ~ - 19. 8 - 7. 6 ^； 

式中 y —— 胶卷感光速度的 变动； 

^—— 肢卷的保存时间。 

这个方程式表示每个月胶卷感光速度平均下降 
7. 6 个单元。把消费者购买和使用习惯与分析得来 
的信息相结合，将有助于宝丽来调整生产，提供满足 
顾客需要的胶卷。 

在本章中，将介绍如何运用回归分析法建立起 
具有两个变量的方程式，如宝丽来例子中的胶片感 
光速度和保存时间。在下面几章中，我们将这一概念 
扩展到具有两个以上变量的情形。 
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管理决策经常是根据这两个或更多变量之间的关系作出的。例如，在考虑广告费用和销售额 
之间的关系后，销售经理想知道一定水平的广告费用能带来多少销售收入。又如，一家公用事业 
的公司想知道每月最高温度和用电量之间的关系，再根据下个月白天最高气温预报，来预测用电 
量。有时候，管理者要通过直觉来判断两个变量之间的关系。但是，如果能获得数据，可以利用 
回归分析 统计方法建立一个方程来表示变量之间的关系。 

在回归方法中，被预测变量称之为 因变量 (dependent variable )， 进行预测的变量称之为 自变量 
(independent variable ) 。例如，在分析广告费支出对销售收入的影响时，销售经理想预测销售收 
入，则销售收入为因变量，而用来预测收人的广告费是自变量。在统计符号上， y 代表因变量， 

%代表自变量。 


第一次用统计方法来研究两个个体间关系的是 Francis Galton ( 1822—1911 )。 Galton 
对父亲和儿子的身高之间的关系感兴趣。 Galton 的同事， Karl Pea r son ( 1857—1936) 利用 
该方法来研究1 078对父亲身高和儿子身高之间的关系。 


在样本中我们只考虑两者的关系可以用一条直线近似表示出简单类型的回归分析，这种回归 
分析称之为 简单线性回归 (simple linear regression ) 0 涉及两个或两个以上自变量的回归分析为多元 
回归分析。第15章和第16章将介绍包括曲线关系的多元回归分析和案例。 


14.1 简单线性回归模型 

Armand 比萨饼餐馆连锁店是经营意大利食品的餐馆，它在美国的5个州内都有分店。 Ar - 
mand 比萨餐饼馆连锁店的最佳位置是在大学校园附近。管理人员相信，这些饭店的季度销售收入 
(用 y 表示）与学生人数 (用％ 表示）是正相关的。也就是说，在学生较多的校园附近的餐馆与在学 
生较少的校园附近的餐馆相比，季度销售收入更多。利用回归分析，我们能得岀一个说明因变量 
y 与自变量％之间关系的方程。 


回归模型和回归方程 

在 Armand 比萨饼餐馆连锁店例子中，每一个餐馆相应地都有一个； c 值(学生总数）和对应的 
y 值（季节销售额）。描述 y 和％的关系的方程式被称为回 归模型 (regression model )。 回归模型用 
于如下的简单线性回 归中： 


简单线牲回归模型 




y = po + pi x + e 

(14.1) 


在简单线性模型中， y 是 x 的线性函数 （/3 o + Ax 部分）加上 e 。 烽和称为模型的参数， 



580 商务与经济统计 


e 被称为误差项的随机变量。误差项说明了包含在 y 里面但不能被； c 和 y 之间的线性解释的变异 
性。 

在 14. 4节中我们将讨论简单线性回归模型和 e 假定。其中假定之一是 e 的平均值或期望值 
为零。根据这一假定， y 的平均值或期望值釕 y ) 等于烽+ At 换句话说， y 的平均值是^的线 
性函数。这一方程式描述了 y 的平均值与^的关系，称此方程为回 归方程 (regressibn equation )。 
简单线性回归方程 如下： 


简单线牲回0方程 




E ( y ) : + 卩 \ x 

(14.2) 


简单线性回归方程是一条 直线： 烽是回归直线的 y 截距，饵是^斜率， £( y ) 是 y 的平均值 
或期望值。对于简单线性回归方程的几种回归直线见图 14. 1。图 14.1 中，图 A 中的回归直线表 
示： K 的平均值与； c 正相关，较大的； c 值对应的 £( y ) 值也较大。图 B 中的回归直线表示 y 的平均 
值与^负相关，较大的； c 值对应的 £( y ) 值较小。图 C 中的回归直线表示 y 的平均值与； c 无关， 
即对于; c 的每个值， y 的平均值是相同的。 


图 A : 正线性关系 图 B : 负线性关系 



图 C : 无关系 

E(y) 


斜率译是0 

Hp _ 

回归直线 


po 


估计回归方程 

如果参 数烽和 A 已知，对于一个已知的 X 值，我们能利用公式 （14,2) 来计算 y 的平均 
值。如果未知实际的参数值，可以通过样本数据进行估计。用样本统计量6。和 h 来进行回归方 
程中的未知参数择和 )8 i 的估计，我们将得到 估计回归方程 (estimated regression equation ) 。简单线 
性回归方程的估计 如下： 


估计简单线牲回归方程 




y - bo + bix 

(14.3) 


简单线性回归方程图被称为估 计的回 归线； 6。是 y 的截距，6,是斜率，对于一个给定的； c ， 
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$是 y 的 一个估计值。 在下节中，我们介绍利用最小二乘法来计算估计回归方程中的6。和6,。图 
14.2 是简单线性回归的估计过程总结。 



图 14. 2 简单线性回归的估计过程 


对于姝和负的估计是一个统计过程，与第7章中的对 M 的统计非常类似。烽和戽 
是感兴趣的未知参数，用于估计未知参数的样本统计量。 


评 )i 


回归分析不能被看做是在变量间建立一个 何关于因果的结论必须建立在对个体或多个个 
因果关系的过程，回归分析只能表明变量是如 体的有关应用的大量信息判断基础上的。 

何或者是以怎样的程度彼此联系在一起的。任 
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14.2 最小二乘法 


最小二乘法 (least squares method ) 是利用样本进行回归方程估计的一种方法。为了解释最小二 
乘法，假定由10家 Armand 比萨饼餐馆组成一个样本。对于样本中的第 i 个观察值或餐馆，％是 
学生样本大小（千人）， y 是季度销售额（千美元）。样本中10家餐馆的&和 yi 值汇总于表 14. 1。 
从图中得出餐馆1，^=2, yi =58, 表示这家餐馆位于有2000名学生的校园附近，每个季度的 
销售额为58 000美元。餐馆2, ^ = 6, 72 = 105,表示这家餐馆位于有6 000名学生的校园附近， 
每个季度的销售额为105 000美元。销售额最多的是餐馆10,这家餐馆位于26 000名学生的校园 
附近，每季度的销售额为202 000美元。 


表 14. 1 10家 Armand 比萨饼餐馆的学生人数和季度销售收入数据 



CD 光盘数据 


Armandos 


餐馆 

学生人数（千人） 

季度销售额(千美元) 

1 

Xt 

yi 

1 

2 

58 

2 

6 

105 

3 

8 

88 

4 

8 

118 

5 

12 

117 

6 

16 

137 

7 

20 

157 

8 

20 

169 

9 

22 

149 

10 

26 

202 


图 14.3 是表 14.1 中的数据的散点图。学生人数的大小为横坐标，每季度销售额为纵坐标。 
根据横坐标自变量％和纵坐标因变量 y ， 可以得出回归分析的 散点图 （scatter diagrams ) 。可从散点 
图上观察数据，对变量之间可能存在的关系作出初步判断。 


在简单线性回归中有两个 变量： 一个是自变量，另一个是因变量。 


_实际上，％和 y 之间是正线性关系。所以我们可以选择简单线性回归模型来表示季度销售额 
和学生人数之间的关系。假如假定成立，我们利用表 14.1 中的样本数据得出简单线性回归方程中 
的和值。对于第 i 个餐馆，回归估计方程 如下： 

ji - 6o + biXi (14.4) 

式中 % i 个餐馆季度销售额的估计值(千美 元）； 

bo ——估计回归直线的 y 的截距； 
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60 

40 

20 


x 


0 2 4 6 8 10 12 14 16 18 20 22 24 26 

学生人数（千人） 

图 14. 3 Armand 比萨饼餐馆的学生人数和季度销售收入的散点图 


通小二乘滾则 


min 


in Z 


(14.5) 


式中 rt - ——因变量的第 i 个观 察值; 
yt ——因变量的第〖个估计值。 


Carl Friedrich Gauss( 1777—1855 ) 提出了 最小二乘法。 


通过微分学证明可知，要求得最小公式 （14. 5) 的 仏和 仏，可使用公式 （14. 6) 和 （14. 7)。 


6,——估计回归直线的 斜率； 

^——第〖个餐馆的学生人数(千人）。 

令 y 为第〖家餐馆观察值(实际值），公式 （14. 4) 中的 七为第 i 家餐馆的销售收人的估计值，样本 
中的每个餐馆有一个销售额 y 和 f 的估 计值。为了使回归直线的估计与实际数据有很好的拟合， 
我们希望观察值与估计值之差要小。 

最小二乘法利用样本数据，通过因变量”的观察值和估计值之间的离差平方和最小的方法来 
求得6。和 h 值。最小二乘法的准则见公式 （14. 5)。 










• • 


J 


220200 


o o o ofoo 

8 6 4 2 0 8 
11 11 11 11 11 

季度销售额(千美元) 
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回归方程估计的斜率和/截距* 




b \ = 

X ( xi - x ) 2 

(14.6) 



bo = y - b{x 

(14.7) 

式中 Xi — 

一自变量的第 f 个观 察值； 




一因变量的第 i 个观 察值； 



X 一 

一自变量的平 均值； 



y — 

一因变量的平 均值； 



n — 

一总的观察次数。 




在用计算器计算时，在中间计算中尽可能多保留有效的数字，我们建议至少保留四 
位数。 


对于 Armand 比萨饼餐馆例子，应用最小二乘法估计回归方程的必要计算步骤见表 14. 2。对 
于由10家餐馆组成的样本，我们有 ； i = 10 个观察值。因为公式 （14. 6) 和 （14. 7) 需要5和首先 
计算5和 y 。 


1^, _ 140 
n 10 


=14 


-1300 



利用公式 （14. 6)、 （14. 7) 和表 14. 2中的数据，我们能计算出 Armand 比萨饼餐馆连锁店的估 
计回归方程中的斜率和截距。斜率（60计算过程 如下： 

, X (xj-x)(ri-r) 

bl= i( Xj -xy 

2 840 
= 568 


y 截距 Uo ) 的计算 如下: 


bo = y - b{x 

= 130-5(14) 
= 60 


* 计算可选择的公式为 A ,= 


Xx^Yi - ( XxiY,Yi)/n 
Xxf - ( Y,Xi) 2 /n 


。在计算 h 时，如利用计算器可采用公式 （14.6) 。 
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: y 



于是，估计回归方程 如下： 

y = 60 + 5 x 

图 14. 4给出在散点图中这个方程的直线形式。 

*14.2 Armand 比萨饼餐馆连锁店的最小二乘法估计回归方程计算 


餐馆 Z 

Xi 

yi 

Xi -X 

yt-y 

( X * - 无 ）（> e—jO 

( X / -X 

1 

2 

58 

-12 

-72 

864 

144 

2 

6 

105 

-8 

-25 

200 

64 

3 

8 

88 

-6 

-42 

252 

36 

4 

8 

118 

-6 

-12 

72 

36 

5 

12 

117 

- 2 

-13 

26 

4 

6 

16 

137 

2 

7 

14 

4 

7 

20 

157 

6 

27 

162 

36 

8 

20 

169 

6 

39 

234 

36 

9 

22 

149 

8 

19 

152 

64 

10 

26 

202 

12 

72 

864 

144 

总计 

140 

1 300 



2 840 

568 



Zr* 






60 

季度销售额(千美元)截=6 
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估计回归方程的斜率（匕 =5) 为正，表示学生人数增加，销售额增加，实际上，我们得出学生 
人数每增加1000人，销售额将增加5 000美元的结论，也就是说，每增加一个学生，销售额将增 
加5美元。 

如果我们确定最小二乘法估计回归方程描述了； c 和 y 之间的关系，我们可以在给定的 x 值 
下，利用回归方程去预测 y 值。例如，如果我们想预测一家位于有16000名学生的校园附近的餐 
馆的销售额，我们可以这样 计算： 


y = 60+5(16) =140 


利用回归方程进行预测应使外推预测值中独立变量的取值在合理范围之内，因为外 
推时，我们不能确保同一关系式是有效的。 


因此，我们将预测这家餐馆的销售额为140000美元。在下面章节中，我们将讨论如何利用 
回归方程进行估计和预测的合理性的评估方法。 



最小二乘法通过使自变量 p 的观察值和估 
计值之间的离差平方和达到最小的方法，得到 
一个回归方程的估计。最小二乘法是选择能与 
样本数据有最好拟合的方程。如果利用其他准 
则，例如最小化 y 和 h 之间的绝对离差之 


和，就会得到不同的方程。事实上，最小二乘 
法是应用最广泛的方法。如果要预测超出自变 
量范围的值，利用回归方程的估计就要谨慎， 
因为我们不能保证变量之间存在此关系。 



方法 



自测题 


已知两变量％和 y 的 5 组观察值如下: 


Xi 

1 

2 

3 

4 

5 

yi 

3 

7 

5 

11 

14 


a . 画出这些数据的散点图。 

b . ( a ) 中的散点图能表明这两个变量之间存在什么关系？ 

c . 试着画一条直线来近似表示％和 y 之间的关系。 

d . 利用公式 （14. 6) 和 （14.7)， 来计算 6 o 和& 的值， 求出估计回归方程。 
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e . 对于给定的 x = 4 , 利用估计回归方程，预测 y 的值。 

2. 对于两变量 x 和 y 的5组观察值如下： 


Xi 

2 

3 

5 

1 

8 

yi 

25 

25 

20 

30 

16 


a . 画出这些数据的散点图。 

b . 根据 ( a ) 中的散点图来表明这二变量之间存在什么关系。 

c . 试着画一条直线来近似表示％和 y 之间的关系。 

d . 利用公式 （14. 6) 和 （14. 7)，来计算6。和 h 的值，求出估计回归方程。 

e . 当％ = 6时，利用估计回归方程，预测 y 的值。 

3. 从两个变量中搜集5组观察值进行回归 研究： 


Xi 

2 

4 

5 

7 

8 

yi 

2 

3 

2 

6 

4 


a . 画出这些数据的散点图。 

b . 求出这些数据的回归方程。 

c . 对于给定； t =4, 利用估计回归方程，预测 y 的值。 

应用 


4. 以下是搜集到的有关女子游泳运动员的身高（英寸）和体重 （磅） 的 数据: 



自测题 


身高 

68 

64 

62 

65 

66 

体重 

132 

108 

102 

115 

128 


a . 以身高为自变量，画出这些数据的散点图。 

b . 根据 ( a ) 中的散点图来表明这二变量之间存在什么关系。 

c . 试着画一条直线来近似表示％和 y 之间的关系。 

d . 利用公式 （14. 6) 和（14.7)，来计算6。和 M 的值，求出估计回归方程。 

e . 如果运动员的身高为63英寸，则估计她的体重为多少？ 


5. 以下数据是7种牌子的软饮料的销售数量（百万箱)和广告费用（百万美元 ）（ Supe r 6 mW ’9 S ,0 C t 0 ber 


20, 1997)： 

品牌 

广告费用（百万美元） 

销售数貴(百万箱) 

Coca-Cola Classic 

131.3 

1 929.2 

Pepsi-Cola 

92.4 

1 384.6 

Diet Coke 

60.4 

811.4 

Sprite 

55.7 

541.5 

Dr. Pepper 

40.2 

536.9 

Mountain Dew 

29.0 

535.6 

7 -Up 

1 L 6 

219.5 
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a . 以广告费为自变量，画出这些数据的散点图。 

b . 根据 ( a ) 中的散点图来表明这二变量之间存在什么关系。 

c . 试着画一条直线来近似表示％和 y 之间的关系。 

d . 利用最小二乘法，求出估计回归方程。 

e . 对回归方程的斜率作出说明。 

f . 如果一种品牌的软饮料的广告费用是7000万美元，预测它的销售数量。 

6. 美国各航空公司的业绩统计数据公布在《华尔街曰报1998年鉴 》 ( The Wall Street Jounuzl AI - 
mrnac ， 1998) 上。有关航班正点到达率和每 100000 名乘客中投诉的次数 如下： 


航空公司 

航班正点到达率 

投诉率 

Southwest 

81.8 

0.21 

Continental 

76.6 

0.58 

Northwest 

76.6 

0. 85 

US Airways 

75.7 

0.68 

United 

^ 73. 8 

0.74 

American 

72.2 

0. 93 

Delta 

71.2 

0.72 

America West 

70. 8 

1.22 

TWA 

68.5 

1.25 


a . 以正点率为自变量，画出这些数据的散点图。‘ 

b . 根据 ( a ) 中的散点图来表明这二变量之间存在什么关系。 

c . 求出描述每100 000名乘客中投诉的次数与航班正点到达率相关的估计回归方程。 

d . 对回归方程的斜率作出说明。 

e . 如果飞机正点到达率为80%，估计每100000名乘客中投诉次数为多少？ 



CD 光盘数据 
DowS&P 


道琼斯指数 ( DJIA ) 和标准普尔500指数 ( S & P ) 是股票价格水平的测量手段。 DJIA 是基于 
30家大公司的股票价格得出的。标准普尔500是由500家股票组成的股票指数。有人认 
为标准普尔500所含股票数目多，因此是反映股票市场的最好方法。从2000年2月11 
曰，由 DJIA 和标准普尔500指数10周的收盘价组成一个样本 （ Barron、April 17,2000)。 


时间 

道琼斯指数 

标准普尔指 

2月11日 

10 425 

1 387 

2月18日 

10 220 

1 346 

2月25日 

9 862 

1 333 

3月3曰 

10 367 

1 409 

3月10日 

9 929 

1 395 

3月17日 

10 595 

1 464 

3月24日 

11 113 

1 527 

3月31日 

10 922 

1499 

4月7曰 

11 111 

1 516 

4月14日 

10 306 

1 357 
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a . 以道琼斯指数为自变量，画出这些数据的散点图。 

b. 用最小二乘法建立估计回归方程。 

c . 假定道琼斯指数的收盘价为11000,估计标准普尔500指数的收盘价。 

8. 尼尔森媒体调查机构搜集在 ABC 、 CBS 、 NBC 、 Fox 、 UPN 和 WB 电视网的黄金时间各种广告播 
故的次数的数据 （ USA Today ， May 5, 1997) 0 


广告品牌 

广告播放次数 

收看广告的家庭户数 

Wendy’s 

28 

191.7 

Ford Escort 

20 

174.6 

Austin Powers movie 

14 

161,3 

Nissan 

16 

161. 1 

Pizza Hut 

16 

147.7 

Saturn 

16 

146,3 

Father’s Day movie 

11 

138.2 


a . 求出描述广告播放次数与收看广告的家庭户数关系的估计回归方程。 

b. 对回归方程的斜率作出说明。 ' 

c . 如果播放广告次数为15次，估计收看广告的家庭户数为多少？ 

9. 一个销售经理收集关于销售员的年薪和工龄的数据 如下： 


销售员 

工龄 

年薪(千美元) 

1 

1 

80 

2 

3 

97 

3 

4 

92 

4 

4 

102 

5 

6 

103 

6 

8 

111 

7 

10 

119 

8 

10 

123 

9 

11 

117 . 

10 

13 

136 


a . 以工龄为自变量，画出这些数据的散点图。 

b. 在给定的工龄下，求出预测年销售额的估计回归方程。 

c . 利用估计的回归方程，预测有9年工龄的一位销售员的年销售额。 


10 . 



CD 光盘数据 


《计算机世界》 （PC 取 orW ) 对前 15 名的笔记本电脑作出评级 （PC February 

2000)。通过与标准机器运行同一商业应用程序的速度进行比较，可以对其性能分数作 
出评判。例如，性能打分为200是标准机器运行速度的2倍。在这次研究中每种笔记 
本总的评定分数为 100 分。 90 分为优秀，而 70 分表示一般。 15 种笔记本的性能分数 


PCs 
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的总的评定级别 如下: 


11 . 



CD 光盘数据 


Casino 



性能打分 

总的评定级别 

AMS Tech Roadster 15CTA380 

115 

67 

Compaq Armada M700 

191 

78 

Compaq Prosignia Notebook 150 

153 

79 

Dell Inspiron 3700 C466GT 

194 

80 

Dell Inspiron 7500 R500VT 

236 

84 

Dell Latitude Cpi A366 XT 

184 

76 

Enpower ENP-313 Pro 

184 

77 

Gateway Solo 9300LS 

216 

92 

HP Pavilion Notebook PC 

185 

83 

IBM ThinkPad I Series 1480 

183 

78 

Micro Express NP7400 

189 

77 

Micron Trans Port NX PII-400 

202 

78 

NEC Versa SX 

192 

78 

Sceptre Soundx 5200 

141 

73 

Sony VAIO PCG-F340 

187 

77 

a. 以性能分数为自变量， 

画出这些数据的散点图。 


b. 用最小二乘法建立估计回归方程。 


c. 如果一种新的 PC 机，它的性能打分为 225, 估计其总的评定级别。 

下面是拉斯韦加斯 10 家博彩旅店的旅店收入和博彩业收入（百万美元）的统计数据 
(Cornell Hotel and Restaurant Administration Quarterly , October 1997) : 

公司 

旅店收入 ( 百万美元） 

博彩业收入 ( 百万美元） 

Boyd Gaming 

303.5 

548.2 

Circus Circus Enterprises 

664.8 

664.8 

Grand Casinos 

121.0 

270.7 

Hilton Corp. Gaining Div. 

429.6 

511.0 

MGM Grand, Inc. 

373. 1 

404.7 

Mirage Resorts 

670.9 

782.8 

Primadonna Resorts 

66.4 

130.7 

Rio Hotel & Casino 

105.8 

105.5 

Sahara Gaming 

102.4 

148.7 

Station Casinos 

135.8 

358.5 

a. 以旅店收入为自变量， 

画出这些数据的散点图。 



b . 这两个变量之间是否存在线性关系？ 

c . 求出描述旅店收入和博彩业收入关系的估计回归方程。 

d . 假定旅店收入为5亿美元，博彩业收入为多少？ 


12. 下面数据给出20家公司的雇员数量和收入（百万美元）的数据 April 17, 2000) : 
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CD 光盘数据 
EmpRev 


雇员 收入（百万美元 ) 


Sprint 

77 600 

19 930 

Chase Manhattan 

74 801 

33 710 

Computer Sciences 

50 000 

7 660 

Wells Fargo 

89 355 

21 795 

Sunbeam 

12 200 

2 398 

CBS 

29 000 

7 510 

Time Warner 

69 722 

27 333 

Steelcase 

16 200 

2 743 

Georgia-Pacific 

57 000 

17 796 

Toro 

1 275 

4 673 

American Financial 

9 400 

3 334 

Fluor 

53 561 

12 417 

Phillips Petroleum 

15 900 

13 852 

Cardinal Health 

36 000 

25 034 

Borders Group 

23 500 

2 999 

MCI Worldcom 

77 000 

37 120 

Consolidated Edison 

14 269 

7 491 

IBP 

45 000 

14 075 

Super Value 

50 000 

17 421 

H&R Block 

4 200 

1 669 


a . 以雇员数量为自变量，画出这些数据的散点图。 

b . 根据 ( a ) 中的散点图，来说明雇员的数量与收入之间的关系。 

c . 通过这些数据得出估计回归方程。 

土假定这家公司有75 000名员工，用回归方程估计来预测公同的收入。 


13. 联邦国税局认为，总逐项列明的扣除减项依赖于纳税人调整后的总收入。对于大的减税，如 
慈善事业和医疗费用的大的扣除减项是比较合理的。如果一个纳税人自己申报的纳税的每项 
扣除超过已知收入水平的平均逐项列明的扣除减项，联邦国税局就需要对其进行审计。有关 
调整后的总收入和平均或合理的总逐项减税的数据如下（单 位： 千美 元）： 


调整后的总收入 ( 千美元 ) 

22 

27 

32 

48 ' 

65 
85 
120 


总逐项减税 ( 千美元 ) 

9.6 
9.6 
10. 1 
11. 1 

13.5 
17.7 

25.5 


a . 以调整后的总收入为自变量，根据这些数据画出散点图 

b . 利用最小二乘法得出估计回归方程。 . 
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C. 假定一个纳税人调整后的总收入为52500美元，估计其总逐项减税的合理水平。如果纳税 
人申称其总逐项减税为20400美元， IRS 认为是否需要对其审计？试解释。 


14. 



CD 光盘数据 
Hotel 


下列数据是关于美国最大的旅馆客户居住率和房价的数据 （TTie Wall Street Journal 
Almanac , 1998) : 


旅馆 

居住率 (％) 

房价 ( 美元 ) 

Los Angeles - Long Beach 

67.9 

75.91 

Chicago 

72.0 

' 92. 04 

Washington 

68.4 

94.42 

Atlanta 

67.7 

81.69 

Dallas 

69.5 

74.76 

San Diego 

68.7 

80. 86 

Anaheim - Santa Ana 

69.5 

70.04 

San Francisco 

78.7 

106. 47 

Houston 

62.0 

66, 11 

Miami - Hialeah 

71.2 

85. 83 

Oahu Island 

80, 7 

107. 11 

Phoenix 

71.4 

95. 34 

Boston 

73.5 

105.51 

Tampa - St. Petersburg 

63.4 

67.45 

Detroit 

68,7 

64.79 

Philadelphia 

70. 1 

83,56 

Nashville 

67. 1 

70. 12 

Seattle 

73.4 

82. 60 

Minneapolis - St. Paul 

69. 8 

73.64 

New Orleans 

70.6 

99. 00 


a . 以平均房价为自变量，画出这些数据的散点图。 

b . 求描述客户居住率和平均房价关系的估计回归方程 

c . 假定平均房价为80美元，估计旅馆的居住率。 


14 . 3 判定系数 

对于 Armand 比萨饼连锁店例子，我们建立估计回归方程^ = 60+ 5%来近似表示学生人数％ 
和季度销售额 y 的线性关系。现在有一个 问题： 我们如何使估计回归方程与样本数据更好地拟合？^ 
本节中，我们介绍如何用判 定系数 (coefficient of determination ) 来判断估计回归方程的拟合程度。 

对于第 I •个观察值，因变量观察值 y 与估计值 f 之差 为第 f 个残差 （ith residual )。 第 i 个残 
差表示 f 估计％的误差。因而，对于第 i 个观察值，残差为这些残差或误差的平方和是 
利用最小二乘法计算的最小量。这个量也被称为 误差平方和， 记作 SSE 。 
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误差平方和 




SSE = S { ji '- yi ) 2 

(14.8) 


SSE 值是用估计回归方程来估计样本中因变量而产生的误差。 


在表 14.3 中我们列出了 Armand 比萨饼连锁店误差平方和计算的必要步骤。例如，对于旅店 
1，自变量和因变量值为； c , =2, yi =58。 利用估计回归方程，我们得出旅店1的估计的季度销售 
额为；=60 + 5(2) =70。因此，对于旅店1，用灸估计;^的误差为 y,-yi =58-70= - 12。表 
14.3 的最后一列误差平方，（_12) 2 = 144。计算样本中的每一家饭店的残差并将其残差平方 
后，将其平方和汇总得到 SSE = 1 530。因此 ， SSE = 1 530度量了利用估计回归方 程:; = 60 + 5 x 预 
测销售收入所产生的误差。 

表 14. 3 Armand 比萨饼连锁店的 SSE 计算步骤 


旅馆 

%=学生人数 

y i = 季度销售额 




(i) 

( 千人） 

( 千美元） 

y i = 60 + 5 ATi 

yi-yi 

(yt -yt 

1 

2 

58 

70 

-12 

144 

2 

6 

105 

90 

15 

225 

3 

8 

88 

100 

-12 

144 

4 

8 

118 

100 

18 

324 

5 

12 

117 

120 

-3 

9 

6 

16 

137 

140 

-3 

9 

7 

20 

157 

160 

-3 

9 

8 

20 

169 

160 

9 

81 

9 

22 

149 

170 

-21 

441 

10 

26 

202 

190 

12 

144 






SSE = 1 530 


现在我们假定在不知道学生人数的情况下，求出季度销售额的估计值。因为没有相关变量， 
我们用样本均值作为任何一家旅店的估计的季度销售额。表 14.2 中得到样本销售数据， = 
1 300。因此，10家 Armand 比萨饼连锁店的样本平均季度销售额为 j = 2 ；^/n = 1 300/10 = 130 o 
表 14.4 表示利用样本平均值 y = 130 来估计样本中每个旅店的季度销售额。对于样本中的第€ 
个饭店，离差％ 得出用 3 M 古计销售额的误差大小。其相应的平方和，称之 为总的平方和 ，记为 

SST 。 


总的平方和 




SST = X ( yt - y ) 2 

(14.9) 


在表 14. 4中最后一列底部是 Armand 比萨饼连锁店的总的平方和，即为 SST = 15 730。 

在图 14.5 中我们画出 f = 60 + 5 x 回归方程直线和7 = 130直线。注意到样本点散布在估计回 
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归线比在7 = 130附近更密集。例如，对于样本中第10家餐馆，我们发现当用7 = 130比用 
60+5(26) =190估计 f 时误差更大。因此，我们将 SST 看做是观测值在7 = 130周围密集程度的度 
量，而将 SSE 看做是观测值在？直线周围密集程度的度量。 

表 14. 4 . Armand 比萨饼连锁店总的平方和的计算 


旅馆 

&=学生人数 

= 季度销售额 



(0 

(千人） 

(千美元） 

yt -y 

(a -y) 2 

1 

2 

58 

-72 

5 184 

2 

6 

105 

-25 

625 

3 

8 

88 

-42 

1764 

4 

8 

118 

-12 

144 

5 

12 

117 

-13 

169 

6 

16 

137 

7 

49 

7 

20 

157 

27 

729 

8 

20 

169 

39 

1 521 

9 

22 

149 

19 

361 

10 

26 

202 

72 

5 184 

SST = 15 730 


J 



为了判断估计回归线的^与7之间的离差的大小，需要计算另一个平方和，称该平方和 为回归 
平方和， 记为 SSR 。 
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回归平方和 




SSR = X ( yi ~ y ) 2 

(14.10) 


从上述讨论中，我们可以发现 SST 、 SSR 和 SSE 三者之间的关系。实际上，这三个平方和之 
间的关系是统计中最重要的结论之一。 


SST、SSR 和 SSE 2间的关系 





SST = SSR + SSE 

(14.11) 

式中 SST — 

一总的平方和； 



SSR — 

一回归平方和； 



SSE — 

一 误差平方和。 




公式 （14. 11) 介绍了总的平方和能被分解为两个组成部分，回归平方和和误差平方和。因 
此，如果已知任意其中两个，就可求出第三个。例如，在 Armand 比萨饼连锁店中，我们已知 
SSE = 1 530 *SST = 15 730。 所以，利用公式 （14. 11) 可求得 SSR , 我们得到回归总的平方和为 


SSR = SST - SSE = 15 730 - 1 530 = 14 200 

现在我们介绍如何利用这三个平方和 SST 、 SSR 和 SSE 来判断估计回归方程的拟合程度。如 
果因变量^值都恰巧落在估计回归线上，估计回归方程将给出一个很好的拟合。此时，为 
0，因此 SSE = 0。 因为 SST = SSR + SSE ， 故完全拟合时 ， SSR —定等于 SST ， 比率 （ SSR / SST ) 
—定为1。拟合程度差，将会导致 SSE 变大，利用公式 （14. 11)，得 SSE = SST - SSR 。 因此，当 
SSR = 0 时 ， SSE = SST , SSE 最大(拟合度最差）。 

比率 SSR / SST 在 0—1 之间，我们可以利用此比值来评价估计回归方程的拟合程度。该比率 
称为判 定系数 (coefficient of determination ) ,记为 r 2 。 


判定系数 




r 2 : SSR/SST 

(14.12) 


对 Armand 比萨饼连锁店的例子来说，判定系数的值是 卜署 =^|^ = 0. 902 7 


如果用一个百分比来表示判定系数， r 2 被解释为用估计回归方程来解释 总的平 方和的百分比。对 
于 Armand 比萨饼连锁店，用估计回归方程 f = 60 + 来预测销售额时，我们得岀有 90. 27%的总 
的平方和能被估计回归方程解释。换句话说，销售收人的变异性有 90. 27%能被学生人数和销售 
额之间的线性关系所解释。对此估计回归方程，我们得到有很好的拟合这一结论。 


相关系数 

在第3章中我们 引人相关系数 ( correlationcoefficient ) 来描述两个变量 x 和 ; y •之间的线性程度。 
相关系数在 - 1 _ + 1之间。+ 1表示两个变量 ： c 和 y 是完全线性正相关；_ 1表示： c 和; y 是完全线 









596 商务与经济统计 


性负相关，所有在直线上的数据点都有一个负斜率。相关系数为零表示％和 y 不是线性相关。 


在 3. 5节中我们给出计算样本相关系数方程。如果已经进行了回归分析并对相关系数进行计 
算，则样本相关系数 r 2 计算 如下： 


祥本相关系数 


、二丨^的符号） V 判定系数 


= (6 i 的符号 ） P 

(14.13) 

式中，为估计回归方程$ = x 的斜率。 



如果估计回归方程中有一个正的斜率 (^>0) ,则样本相关系数为正，反之，如果估计回归 


方程有一个负的斜率 ( b '0)， 则样本相关系数为负。 

对于 Armand 比萨饼连锁店例子，估计回归 方程: ? = 60 + 5 rc 的判定系数为 0. 902 7。因为估计 

回归方程的斜率为正，公式 （14. 13) 表示样本相关系数为+彳0. 902 7= +0.950 1。对于样本相关系 
数+0.950 1，得出％和 y 之间是强的正的线性关系的结论。 

对于两个变量的线性关系，判定系数和样本相关系数都是其度量手段，判定系数值在0—1之 
间，而样本相关系数值在 -1 一+ 1之间。虽然样本相关系数是度量两个变量的线性关系的，但相 
关系数可用于度量非线性关系和两个或两个以上因变量的关系。从这个意义上，相关系数有很广 
阔的使用范围。 



1. 在用最小二乘法估计回归方程和计算相关系 
数时，对％和: K 之间的显著性关系没有进行 
概率假设和统计检验。 r 2 值越大意味着最小 
二乘法与数据拟合程度越好，也就是说，观察 
值越靠近最小二乘线。但是如果只有 r 2 , 我们 
不能从统计上得出^和 y 之间的关系是显著 
的结论。这样的结论必须是在考虑了样本容量 
和最小二乘估计的适当样本分布后得出的。 


2. 在实际总的应用中，例如在社会科学中遇到 
的典型数据，经常要考虑 P 的数值低于 
0.25 的情形。对于在自然科学和生命科学 
中的数据，经常遇到 r 2 的数值大于或等于 
0.60 的情形。事实上，在某些实例中，有 
时还会遇到 r 2 的值大于0, 90的情形。在商 
业应用中， r 2 值差异很大，主要是看每个应 
用的各自特性。 



方法 


15. 

gP> 


自测题 


练习1的数据 如下: 


Xi 

1 2 

3 

4 

5 

yi 

3 7 

5 

11 

14 
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这些数据的估计回归方 程为: ^ = 0. 20 + 2. 60 xo 

a . 利用公式（14.8)、 （14. 9) 和 （14. 10)，计算 SSE、SST 和 SSR 。 

b . 计算判定系数 P ， 试评述其拟合程度。 

c . 计算样本相关系数。 

16.练习2的数据 如下： 


Xi 

2 

3 

5 

1 

8 

yt 

25 

25 

20 

30 

16 


这些数据的估计回归方 程为 : P = 30. 33 - 1.88 x 

a . 计算 SSE、SST 和 SSR 。 

b . 计算判定系数 r 2 , 试评述其拟合程度。 

c . 计算样本相关系数。 

17. 练习3的数据 如下： 


Xi 

2 

4 

5 

7 

8 

yi 

2 

3 

2 

6 

4 


这些数据的回归方程为 （ = 0. 75+0. 51〜总的平方和中有多大的比例由估计回归方程解释?样 
本相关系数值为多少？ 

应用 


18. 下面是关于商业管理专业信息系统方向的学士学位学生平均成绩 ： c 和毕业后的月薪 y 

龜 的数据。这些数据的估计回归方程为夕= 1 790.5 +581.1%。 

自测题 

毕业平均成绩 月薪（美元） 

2.6 3 300 

3.4 3 600 

3.6 4 000 

3.2 3 500 

3.5 3 900 

2.9 3 600 


a . 计算 SST、SSR 和 SSE 。 

b . 计算判定系数 r 2 , 试评述其拟合程度 

c . 计算样本相关系数。 

19. 练习7的数据 如下： 

x=DJIA 

2 月 11 日 10 425 

2 月 18 日 10 220 

CD 光盘数据 
DowS&P 



y = S&P 

1 387 
1 346 


598 商务与经济统计 


( 续表 ) 



x i=DJIA 

y = S&P 

2 月 25 日 

9 862 

1 333 

3 月 3 曰 

10 367 

1 409 

3 月 10 日 

9 929 

1 395 

3 月 17 日 

10 595 

1464 

3 月 24 日 

11 113 

1 527 

3 月 31 曰 

10 922 

1499 

4 月 7 曰 

11 111 

1 516 

4 月 14 日 

10 306 

1357 

这些数据的估计回归方程为 

-137. 63 +0. 148 9 ^；o 

总的平方和中有多大比例被估计 


回归方程所解释？试评述其拟合程度，•样本相关系数为多大? 


20. 由18个城市的居民家庭收入和房屋价格的数据 ( Places Rated Almanac ， 2000) 如下: 



CD 光盘数据 
Cities 


(数据以千美元为单位) 



收入 

房屋价格 

Akron，OH 

74. 1 

114.9 

Atlanta, GA 

82.4 

126.9 

Birmingham, AL 

71.2 

130.9 

Bismarck, ND 

62.8 

92.8 

Cleveland, OH 

79.2 

135.8 

Columbia, SC 

66. 8 

116.7 

Denver, CO 

82.6 

161.9 

Detroit, MI 

85.3 

145.0 

Fort Lauderdale, FL 

75.8 

145.3 

Hartford, CT 

89.1 

162.1 

Lancaster, PA 

75.2 

125.9 

Madison, WI 

78.8 

145.2 

Naples, FL 

100.0 

173.6 

Nashville, TN 

77.3 

125.9 

Philadelphia, PA 

87.0 

.151.5 

Savannah, GA 

67.8 

108. 1 

Toledo, OH 

71.2 

101.1 

Washington, DC 

97.4 

191.9 


a. 在给定的家庭收入下，利用这些数据建立估计一个典型的城市居民的房屋价格的回 
归方程。 

b. 计算 r 2 。 用此估计回归方程估计一个城市家庭的房屋价格是否觉得不妥？ 

c. 如果一个典型家庭收入为95 000美元，估计其房屋价格。 


21. 回归分析的一个重要应用是成本估计。收集产品的数量和成本的数据，利用最小二乘法来建 
立关于产品产量和成本之间的估计回归方程，会计人员可以据此来进行某一个特定的生产操 
.作中的成本估计。下面是某一生产操作中产品数量和总成本的 数据： 
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产品数量（单位） 总成本 ( 美元 ) 


400 

4 000 

450 

5 000 

550 

5 400 

600 

5 900 

700 

6 400 

750 

7 000 


a . 在给定的产品数量下，利用这些数据建立估计的总成本的回归方程。 

b . 每单位产品的可变成本或追加成本？ 

c . 计算判定系数。在总成本中有多大的比例能被产品数量解释？ 
d ， 公司计划下个月生产500单位产品，估计其总成本？ 

22. 公司的董事长和执行总裁的年薪是否与公司的业绩有关？下表列出了两年时间的资产回报的 
变动率和两年后总经理和主要高级职员的年薪的变动率的数据 (Business Week ，April 21, 
1997) : 


公司 

两年时间内资产的回报变动率 (％) 

执行总裁 & 

Dow Chemical 

201.3 

18 

Rohm & Haas 

146.5 

28 

Morton International 

76,7 

10 

Union Carbide 

158.2 

28 

Praxair 

-34.9 

15 

Air Products & Chemicals 

73.2 

- 9 

Eastman Chemical 

一 7.9 

-20 


a . 以两年时间内资产的回报变动为自变量，建立估计回归方程。 

b . 计算 r 2 。 利用两年资产的回报变动来预测总经理和主要高级职员的年薪的变动是否不妥？ 
试讨论。 

c . 样本相关系数多大？资产的回报变动与总经理和主要高级职员的薪水变动的线性关系是强 
还是弱？ 


14.4 模型假设 

在进行回归分析时，首先我们对模型中自变量和因变量的关系做出适当的 假定。 对于简单线 
性回归，假定的回归模型为 


y = /3 o + /3 \x + e 


接着，用最小二乘法分别计算6。和6,的值，即模型参数汍和译的估计值。估计回归方程为 
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f = 6。+ 61 x 

我们知道判定系数 （ r 2 ) 是判断估计回归方程的拟合程度。然而， P 越大，那么在没进行适当的模 
型假设分析之前，就越不能随便使用估计回归方程。判断模型假设是否适当的一个重要步骤是检 
验关系是否显著。回归方程的显著性检验是基于误差项 e 的假设。 


回归模型误差顶的假设 

y = /3o + I3ix + e 

1. 误差项 e 是一个平均值或期望值为零的随机变量，也就是说 ，五 （ e )=0。 

这 表示： A ) 和 A 是常量，所以 EW =/3 o , E (^ i ) =/3,；因而，对于一确定的： X ；值， y 
的期望值为 

E(y)=j3o + /3ix (14.14) 

正如前面所写，公式 （14. 14) 是指回归方程。 

2. 对于所有的； c ， 误差项 e 的方差一样， 记为 a 2 。 

这 表示： 对于所 有的、 y 的方差也为 

3. e 值是独立的。 

这 表示： 对于某一％相对应的 e 与其他； c 对应的 e 值不相关，因而，对于某一 ％相对应 
的: K 与其他％对应的 y 值没有相关性。 

4. 误差项 e 是正态分布的随机变量。 

这 表示： 因为 y 是 e 的线性函数， y 也是一个正态分布的随机变量。 


图 14. 6是对模型假设及其涵义的一个说明。从这个图上，发现某一特定的％值变化， E ( y ) 

% = 30时的 y 分布 
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值也随之变化。但是，不管 x 为多大， e 的概率分布和 y 的概率分布都是正态分布，并且具有相 
同的方差。在任意特定点上，误差项£某一特定值依赖于 y 的真实值大于或小于 E ( y )。 

此时我们要记住，要对变量％和 y 之间关系的形式作一个假定或假设。也就是说，假定直线 
是变量关系的基础，我们不能忽略其他模型，例如 ，： k = + e 或许是描述变量之 
间关系的最佳模型。 


14. 5显著性检验 

' 在简单线性回归方程中， y 的平均值或期望值是％的线性 函数： E ( y )=/3 o + ^ x 0 如果译值 
为零， E ( y ) =/3 o + (0 )x = J 3 o 。 此时， y 的均值不依赖于 t 因此得出；^和 y 不是线性相关。另 
外，如果 A 不为零，则得出这两个变量相关，因此，检验回归关系是否显著时，我们可利用假设 
检验来判断 A 值是否为零。通常有两种检验方法，两者在回归模型中都使用了 /的估计和 e 的 
方差。 

O - 2 的估计 

从回归模型和其假设中我们得出的方差)代表回归线的 y 值的方差。将估计回归线中 y 
的离差称之为残差。因此，残差平方和 （ SSE ) 是估计回归线的真实观察值变异的度量。 均方误差 
(mean square error , MSE ) 是的一个估计，是 SSE 除以其自由度后得出的。 

用;^ = bo + biXi 代入 SSE , 则公式写为 

SSE = Z ( y * ~ yd 2 - Z {ji ~ bo ^ biXi ) 2 

每个平方和都有其相联系的自由度。统计学家已经证明 SSE 有 71-2 个自由度，因为有两个参数 
(你和 A ) 被用于进行 SSE 估计。故用 SSE 除以 n -2 得到均方误差， MSE 是沪的一个无偏估计 
量。因为 MSE 是沪的估计，记为 s 2 。 

均方误差（/的诂计麗） 

5 2 = MSE =-^- (14.15) 

n — Z 


在14,3节的八11^11(1比萨饼连锁店的例子中，得到 SSE = 1 530, 因此，沪的一个无偏估计量 
为 


5 2 = MSE=^y^ = 191.25 

为 了估计 o ■，对 s 2 开平方根， 结果 s 为估计童的标准误差 (standard error of the estimate ) 
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估计通的标准误差 

5=厕 E = '戶5 (14.16) 

_____ \ T1/ ^ 

在 Armand 比萨饼连锁店的例子中 ， s = VMSE = Vl 91. 25 = 13. 829。在下面的讨论中，我们 
用估计量的标准误差 来对％ 和 y 之间的关系进行显著性检验。 


t 检验 

简单线性回归方程 y = A ) + Ax + e 。 如果 x 和 y 是线性相关，得出饵/0,检验的目的是检 
验是否能得出我们用样本数据来对参数 A 进行假设检验： 

Ho ： J3i :0 
Hal /3l 7^0 

如果拒绝执，则得出饵/0,两个变量之间在统计上存在显著的关系。然而，如果讯未被拒绝， 
我们没有充分理由得出存在显著关系的结论。64^的最小方差估计值)提供了假设检验的基础。 

首先，让我们考察对同一个回归研究，进行不同的随机抽样将会出现的情况。例如，假设由 
Armand 比萨饼连锁店的10家不同餐店组成的样本。对这个新的样本进行样本回归分析，得出的 


估计回归方程近似于先前的估计回归方程 f = 60+5 x ， 但是不可能得到相同的方程（截距恰好为 
60,斜率恰好为5)。实际上，最小二乘法估计量6。和 h 是样本统计量，它们有各自的样本分 
布，估计量 h 的样本分布的性质 如下： 


b \ 的祥本分布 

期望值 

Eib ^) =/3 i 



标准差 



cr 

6, V Tix - i - x ) 2 

(14.17) 


正态分布形式 



注意 h 的期望值等于择，所以 h 是烊的无偏估计量。 

由于 o ■未知，我们类似于用 S 估计 <7的方法，按公式 （14. 17) 用\来定义 o ; 的 估计值，那 


么，我们就可以得到下列的估 计值: 


6. 的估计标准差 

s f 14 

\一 

V 

' I ( xi - x ) 2 
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6!的标准离差也是6,的标准差，因此，可以用 & 来作为 h 的标准差的估计量。 


对于 Armand 比萨饼连锁店 ， s = 13. 829。见表14.2,利用公式2： U -幻 2 = 568,得到 h 的 

> 

估计标准差为 


\ = 


13. 829 
V568 




0. 580 3 


利用检验进行显著性检验是因为统计检验量 


b\ -0i 

是服从自由度为 n -2 的 f 分布的。如果原假设为真，则 A =0 并且 t 今。 

当显著性水平 a =0.01 时，对于 Arniand 比萨饼连锁店进行显著性检验，检验统计量为 


5 


\ - 0. 580 3 


8. 62 


从附录 B 的表2中得到 a =0.01， 自由度为？ 1-2 = 10-2=8 的分布双侧检验 f 值 ， BP i 0 . oo 5 = 
3.355。因为8.62>3.355,所以我们拒绝丑。，并且认为在显著性水平 a =0. 01下，饵/0。统计 
结果表明对于学生人数和销售额之间存在显著关系。 

同样可用 p - 值准则进行显著性检验。通常拒绝规 则为： 如果/>-值<«，则拒绝讯。但 
是，因为从 t 概率分布表中直接判断得出 />- 值比较困难，因此可以使用软件包 Minitab 或 Ex _ 
cel , 附录 14. 1和 14.2 给出使用这两种方法的步骤， 14. 7节中将介绍如何使用计算机进行回归分 
析。对于 Armand 比萨饼连锁店，检验统计量 Z = 8. 62相对应的 p - 值为 0. 000( 三位小数）。因为 
p - iK =0. 000< a =0. 05,所以拒绝因此得出学生人数与销售额之间没有显著关系。利用检 
验进行显著性检验步骤 如下： 


简单线牲回归显著牲的 t 检验 


检验统计蠢 

拒绝现则 


Ho ： /3 i =0 
H a ： ^0 



利用检验统计量：如果 K - L /2 或 t > ta /2, 则拒绝讯 
利用值： 如果 p - a , 则拒绝 J 7 o 


(14.19) 


fa /2 是基于自由度时的 f 分布。 
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A 的置信区间 

译的置信区间形式 如下： bdt a /1 s bl 0 点估计是6!,边际误差是与这一区间相应的置 
信系数是 1- a , 心 2 是具有 n -2 个自由度的 t 分布单侧面积为 a /2 时的 t 值。例如，我们要得 
岀 Armand 比萨饼连锁店供的置信区间估计，最低水平应提高到99%。从附录 B 的表2中我们可 
查到 a =0.01 、n - 2 = 10-2 = 8 自由度的艺 值是： t 0 . oo 5 = 3. 355 0 那么， A 的99%的置信区间估 
计是 

6 l 士 ta/2 = 5 ±3. 355(0. 580 3) =5 ±1.95 

或 3. 05到6.95。 

在利用显著性 i 检验时，假设检验为 


Ho ： /3 i =0 

//a ： 

在显著性水平 a =0.01 下，我们用置信度为99%的区间来作为 Armand 比萨饼连锁店假设检 
验的结论。因为为零，假设检验值饵不包括在置信区间 （3. 05, 6.95)，我们拒绝 i /。， 得出学生 
人数和销售额之间存在显著关系的结论。一般而言，置信区间可用来进行戽双侧假设检验。如果 
A 的假设检验值包含在置信区间内，则不能拒绝讯。 


F 检验 


建立在 F 概率分布基础上的 F 检验，同样也能对回归进行显著性检验。如果只有一个变量， 
F 值将得到与 f 检验相同的结果。也就是说，如果 t 检验表明 饵#0,因此 变量之间存在显著关 
系，那么 F 值也得出显著关系的结论。但是如果超过一个自变量，则只有 F 检验才能对所有的显 
著性关系进行检验。 

利用 F 检验判断回归关系是否显著的基本原理是以沪的两个独立自变量为依据。我们得出 
MSE 是 cr 2 的一个估计值。如果原假设讯：负=0为真，回归方程 SSR 除以其自由度得出 V 的另 
一个独立估计量。这个估计量为来 自回归 均方，简单说为均方 回归， 记为 MSR 。 总体上 

SSR 

MbK= 回归自由度 

在本节中我们所考虑模型中，回归自由度一般等于自变量的个数。因此 


MSR = 


SSR 

自变量的个数 


(14.20) 


因为在本章中，我们只考虑只有一个自变量的回归模型，得 MSR = f = SSR 。 因此，对于 Ar - 
mand 比萨饼连锁店， MSR = SSR = 14 200。 

如果原假设//。： 饵=0 为真，则 MSR 和 MSE 是 （ T 2 的两个独立的估计量，且 MSR/MSE 的样 
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本分布服从 F 分布，其分子的自由度为1，分母自由度为 n -2。 因此，烊=0时 MSR / MSE 值为 
1。但是，如果原假设为假 ( A #0), MSR 高估了沪， MSR / MSE 值将变得无穷大。因此， MSR / 
MSE 值越大越有可能导致 ft 得出％和： r 之间的关系在统计上是显著的。 

以 Armand 比萨饼连锁店检验。检验统计量为 


F = 


MSR ^ 14 200 
MSE "191725 




74.25 


从附录 B 中的表4得到对于 ot = 0.01，分子自由度为1，分母自由度为 n -2 = 10 -2 = 8的 
Fo.oi = 11.26 0 因为 74. 25 >11. 26,所以拒绝矶，得出当显著性水平为 0. 01时，负不等于0 。 F 
检验提供了足够的统计数据，以便我们得岀学生人数和销售额之间有显著关系。 


F 检验和 f 检验对简单线性回归检验得出的结论一样。 


可以用 P - 值准则进行 F 检验。通常拒绝规 则为： 如果 p - m < «,则拒绝讯。但是，从 F 
概率分布表中直接判断得出 P - 值比较困难，因此可以使用软件包 Minitab 或 Excel ， 附录 14. 1和 
14.2 给出使用这两种方法的步骤， 14.7 节中将介绍如何使用计算机进行回归分析。对于 Armand 
比萨饼连锁店，检验统计量 F = 74.25 相对应的 p _ 值为 0.000( 三位小数）。因为 p - 值二0.000< 
a =0. 05,所以拒绝执，得岀学生人数与销售额之间没有显著关系，利用 F 检验进行显著性检验 
步骤 如下： 


简单线牲回归显著牲水平的 F 裣验 


Ho ： )81 =0 
H & ： 讲 /0 

裣验统计量 

MSR 

MSE 

拒绝现则 

利用检验统计量：如果 F > F „, 则拒绝 ft 
利用 p - 值：如果 p — { S < a , 则拒绝//。 

F a 是基于分子自由度为1，分母自由度为 n -2 的 F 分布。 


(14,21) 


如果//。为假，则 MSE 是（7 2 的一个无偏估计。如果队为真， MSE 和 MSR 都是^ 
的一个无偏估计，此时 MSR/MSE 应该接近1。 








在第 13 章中我们介绍方差分析 ( AN 0 VA ) 以及如何利 用方差分析表 (ANOVA table ) 对方差分析 
计算的简单汇总。类似地， AN 0 VA 表可用于汇总回归显著性的 F 检验结果。表 14.5 就是将 
AN 0 VA 用于简单线性回归的一般形式。表 14. 6是 Armand 比萨饼连锁店 F 检验计算的 AN 0 VA 
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表。第1列中的回归、残差和总计是方差的三个来源，第2列中的 SSR 、 SSE 和 SST 是对应的三 
个平方和，第3列是这些平方和的自由度， SSR 为1, SSE 为/1-2, SST 为/1_1。第4列为 MSR 


和 MSE 值，第5列为^ = ^■值。几乎所有回归分析的计算机输出结果都包含在显著性检验的 
ANOVA 表中。 

表 14. 5 简单线形回归 ANOVA 表的一般形式 


方差来源 

回归方程 

误差 

总计 

平方和 

SSR 

SSE 

SST 

自由度 

1 

n - 2 

n -1 

均方差 

SSR 

MSR = 1 

MQl? SSE 
MSE = ^ 

F 

MSR 

MSE 

表 14. 6 Armand 比萨饼连锁店 F 检验计算的 ANOVA 表 

方差来源 

平方和 

自由度 

均方差 

F 




14 200 ,. 一 

14 200 … ^ 

回归方程 

14 200 

1 

\ = 14 200 

-74 

191.25 3 

误差 

1 530 

8 

1 5 8 3 d =191.25 


总计 

15 730 

9 




在方差分析表中，每个分析的总的平方总和是回归平方和与误差平方和之和。另 
外，总的自由度为回归自由度和误差自由度之和。 


关于显著性检验解释的几点注意 

拒绝原假设肌 ： 译=0,得出％和 y 之间的关系显著，仍不能得出； c 和 y 之间存在一个因果关 
系的结论。只有经过分析家从事实上得出这两个变量之间确实存在因果关系，才能认为存在这种因 
果关系。在 Armand 比萨饼连锁店例子中，我们得出学生人数 rc 和销售额 y 之间存在显著关系。而 
且，估计回归方程^ = 60+ 5%给出了这个显著关系的最小二乘估计量。但是，我们仍然不能得出学生 
人数 x 变化导致销售额 y 的变化，因为我们仅仅从统计上得出其显著关系。这种因果关系的结论需 
要得到理论上的支持，另外需要分析家的准确判断。 Armand 比萨饼连锁店管理者认为学生人数的增 
长是季度销售额增大的最大可能。因此，显著性检验的结论能得出存在这种回归关系。 


回归分析只是被用来表明这个变量与另一个变量之间的关系，不能作为因果关系的 
证据。 


另外，因为我们只不过拒绝//。：译=0,表明统计上存在显著性关系，但仍不能 得出％ 和 y 
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之间的关系是线性的结论。我们只能得出在； c 的样本观察值范围内，1和 7 是相关的，而且这线 
性关系是解释了 y 的变异性的显著部分的结论。图 14.7 说明了这种情形。虽然显著性检验拒绝 
了原假设 A =0 , 并且做出 x 和： k 之间存在显著性关系的结论。但是图中表示^和 y 之间的 
真正关系不是线性。虽然在; c 的样本观察值范围内，估计回归 方程: 给岀了一个近似线 
性关系，但对这个范围之 外的％ 却很差。 


r 



^观察值的范围 


图 14.7 非线性关系的例子 

对于已知的一个显著关系，利用估计的回归方程，对于； c 的样本观察值范围内； c 值进行预 
测，是可靠的。对于 Armand 比萨饼连锁店例子，％的样本观察值取值范围在 2 到 26 之间。除非 
有理由表明这个模型超出这个范围仍适用，一般情况下，在自变量 rc 的取值范围以外进行预测应 
十分谨慎。对于 Armand 比萨饼连锁店，因为在显著性水平为 0 . 01 下，回归关系显著，所以对于 
有 2000 名至 26000 名学生的校园附近的连锁店，可利用显著的回归关系$ = 60 + 5% 来预测连锁 
店的销售收人。 



1. 在 14.4 节对误差项作了一些假定，才可能 
在本节中进行统计显著性检验。 h 抽样分 
布的性质以及 t 检验和 F 检验都是从这些 
假定中直接得出的。 

2. 不能把统计显著性与实际显著性混淆。当样本 
容量很大时，对于小的 h 值，我们仍能得出 
在统计上是显著的结论。而在这种情况下，要 


得出实际上是显著关系的结论,要特别谨慎。 

3. %和 y 之间的线性关系进行显著性检验，也 
可以利用样本相关系数~迸行检验。用 /9 xy 
来表示总体相关系数，建立如下 假设： 

Ho ： pxy - 0 
Ha ： Pxy^O 
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如果队被拒绝，则得出存在一个显著性关系 系数进行显著性检验得出 的结论一样。 因此， 
的结论，有关这种检验的细节在附录 14.2 中 如果已经进行 《 检验和 F 检验，就不必再利用 
给出。但是， t 检验和 F 检验与先前利用相关 相关系数进行显著性检验。 



方 i 去 


23. 练习1的数据 如下: 



自测题 


XI 

1 

2 

3 

4 

5 

yi 

3 

7 

5 

11 

14 


a . 利用公式 （14. 15) 计算均方误差。 

b . 利用公式 （14. 16) 计算估计标准差。 

c . 利用公式 （14. 18) 计算 h 的估计标准差。 


d . 利用 t 检验检验下面的假设 （a = 0.05): 


Ho ： j5i =0 
H & ： 

e . 在显著性水平为 0.05 时，利用 F 检验检验 ( d ) 中的假设。请列出方差分析表中的结果 

24. 练习2的数据 如下： 


Xt 

2 

3 

5 

1 

8 

yi 

25 

25 

20 

30 

16 


a . 利用公式 （14. 15) 计算均方误差。 

b . 利用公式 （14. 16) 计算估计标准差。 

c . 利用公式 （14. 18) 计算 h 的估计标准差。 

d . 利用 t 检验检验下面的假设 = 0.05): 

Ho ： =0 

H a ： 你一 0 

e . 在显著性水平为 0.05 时，利用 F 检验检验 ( d ) 中的假设。请列出方差分析表中的结果。 


25. 练习3的数据 如下: 
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a . 估计标准误差值。 

b . 利用 i 检验对显著性关系进行检验，取 a =0.05。 

c . 利用 F 检验检验变量的显著性关系，得出你的结论。 


应用 

26, 

练习 18 中 平均分数和每月销售额如下 

• 

m 



总评分 

月薪(美元） 

总评分 

月薪(美元) 

自测题 


2.6 

3 300 

3.2 

3 500 


3.4 

3 600 

3.5 

3 900 


3.6 

4 000 

2.9 

3 600 


a . 利用 Z 检验来证明总评分与月薪之间是否有显著性关系，得出你的结论，取《 = 0.05。 

b . 利用厂检验检验显著性关系，得出你的结论，取 a 二0.05。 

c . 列出 ANOVA 表。 

27. 参照练习9,建立工龄和年薪的•关系的估计回归方程。在显著性水平为 0.05 下，判断工龄和 
年销售额是否相关。 

28. 参照练习10,建立一个关于评分和笔记本的总的等级关系的估计回归方程。在显著性水平为 
0.05 下，检验两个变量是否相关。作出 ANOVA 表，得出你的结论。 

29. 参照练习21，利用制造产品的产量和总成本的数据，建立一个关于产量和总成本的估计回归方 
程。在显著性水平为 0. 05下，检验产量和总成本是否相关。作出 ANOVA 表，得出你的结论。 

30. 参照练习22,利用下面数据来确定公司总经理和主要高级职员的报酬是否根据公司的业绩为 
依据 （Business Week , April 21, 1997) 0 


公司 

两年股票收益变动率 （％) 

报酬变动率 （％) 

Dow Chemical 

201.3 

18 

Rohm & Haas 

146.5 

28 

iviorton International 

76. 7 

10 

Union Carbide 

158.2 

28 

Praxair 

-34.9 

15 

Air Products & Chemicals 

73.2 

-9 

Eastman Chemical 

-7.9 

-20 


是否有证据表明这两个变量之间有显著性关系？进行适当的统计检验并陈述你的结论，取 

a = 0. 05。 

31. 参照练习20,建立关于一个家庭典型收入和房屋价格的估计回归方程。在显著性水平为 0.01 
下，检验家庭典型收入和房屋价格是否相关。 
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14. 6利用估计回归方程进行估计和预测 

简单线性模型是对； c 和 y 之间关系的假设，利用最小二乘法，得出估计简单线性回归方程。 
如果从统计中可得出％和 y 之间关系显著，则估计回归方程的拟合程度比较髙，可利用该估计回 
归方程进行估计和预测。 


点估计 

在 Armand 比萨饼连锁店的例子中，估计回归方程^ = 60 + 表示学生人数和季度销售额 y 之 

间的估计关系。我们可利用估计回归方程给出某一特定的％相对应的 y 的均值的点估计。例如， 
假定 Armand 管理者想得到所有位于有10 000名学生的校园附近的餐馆平均每季度销售额的点估 
计。利用估计回归方程$ = 60 + 5%，得出对于％ = 10 ( 或10 000名学生 ）， j = 60 + 5(10) =110 o 
因此，所有位于有10000名学生的校园附近的餐馆平均每季度销售额为110000美元。 

现在 Armand 管理者想得到位于有10 000名学生的 Talbot 大学附近的餐馆每季度销售额。此 
时，我们对所有位于有10 000名学生的校园附近的餐馆平均每季度销售额不感兴趣，我们只想预 
测个别餐馆的季度销售额。可以证明，个别餐馆的点估计与 y 的平均值的点估计一样。因此，我 
们可以用 f = 60+5(10) =110或110 000美元作为个别餐馆的季度销售额的预测值。 


区间估计 

点估计没有提供相关估计值的任何准确信息，因此我们可以采用第8章、第10章和第11章 
中的区间估计。区间估计的第一种类型为 置信区间估计 (confidence interval eetimate ) ,是指对于给 
定的％ 值， y 均值 的区间估计。区间估计的第二种类型为 预测区间估计 (prediction interval esti ¬ 
mate )， 此方法可得出对于给定的％值相对应的 y 个别值的区间估计。 均值的点估计与个别值的 
点估计一样。 


置信区间和预测区间表示回归结果的正确程度，区间越小表示精确度越高。 


r 的均值的置信区间估计 

对于给定的 x 值估计回归方程给定了 y 均值的点估计，在下面的置信区间估计的方法中，我 
们可以使用下列 符号： 

%=自变量 x 的一个特定值或给 定值； 
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五(％)=对于给定的知，因变量 y 的平均值或期 望值； 

当 x = x P ， 必= 6。+ 6 lJC P 为五 ( y P ) 的点估计 o 

利用该符号来表示所有位于有10 000名学生的校园附近的餐馆平均每季度销售额的点估计， 
当％ = 10, £：(%) 表示所有餐馆的未知的平均销售额。 五 (y P ) 的估计 值为必 = 60+ 5 (10) =110 。 
总体而言， ： p P 不能完全等于 E ( y p ) 0 如果想推断平均值 £；( yp ) 与的紧密程度，就需要估计么的 
反差 o 已知的 Ip , 估计;的方差记为碎，计算公式如下： 


4 = 



( x v - x ) 2 ' 
Z (xi-x) 2 - 


(14.22) 


y P 的标准差估计为公式 （14. 22) 的平 方根: 



( x D - x ) 2 

I (Xi-x ) 2 


(14.23) 


在 14. 5 节中 Armand 比萨饼连锁店的计算结果得出 s = 13. 829。 x p = 10,元= 14, X ( xi - x ) 2 - 


568,利用公式 （14. 23) 得出 




= 13. 829 



(10-14) 2 

568 


= 13.829 V0. 128 2=4.95 


£：( y P ) 的置信区间估计的一般形式如下: 


£：( y P ) 的璽信区间估计 


yp ± ta/2Sf r 

式中，置信系数为1 - a , 是基于自由度为 / I -2 的 t 分布。 

(14.24) 


区间估计的误差边限为 U /2H 。 


对所有位于有10 000名学生的校园附近的餐馆平均每季度销售额，建立置信度为95%的区间 
估计，得出当 a /2 =0.025，自由度为 7i - 2 = 10-2 = 8 时的值，查附录 B 中的表 2, 得以。 25 =: 
2. 306。因此，当 A = 110时，极限误差 tan s % =2. 306(4. 95) = 11, 415,置信度为95%的区间估计为 


110±1 L 415 


故所有位于有10 000名学生的校园附近的餐馆平均每季度销售额的置信度为95%的置信区间为 
110 000±11415(美元）。所以当学生人数为10 000时，平均销售额的置信区间为98585美元到 
121 415美元。 
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J 



0 2 4 6 8 10 12 14 16 18 20 22 

学生人数（千人） 

图 14. 8 已知学生人数 X 、平均销售额 y 的置信区间 


注意由公式 （14. 23) 给岀的&的标准差的估计，当和量化形式时是最小的。 
在这种情况下，： P P 的标准差估计值为 


S 9p 


+ 


( x - x ) : 


X (xi^x) 


检 


这一结果意味着当时，我们能得出 y 的平均值的最好或最准确的估计。事实上， x 9 m 
远离 越大。故当远离5时， y 的均值的置信区间将变大，图 14.8 画岀此种情形。 


个别 y 值的预测区间估计 

假定所有位于有 10000 名学生的校园附近的餐馆平均每季度销售额，然后估计有 10000 名学 
生的 Talbot 大学附近的餐馆的销售额，正如前面表明的那样，假定 x =; c P , y 的个别值的点估计 
可利用估计的回归方程:^= 60 + 6 〗％求得。对于 Talbot 大学附近的餐馆，得知= 10 ,相应的估计 
的销售收入为么= 60+5 (10) =110,或110000美元。注意此值与所有位于有10000名学生的 
校园附近的餐馆平均每季度销售额的点估计是一致的。 

为了得出预测区间估计，首先我们必须确定当&时，用么来作为 y 的个别值的估计相联 
系的方差，这个方差由以下两部分 组成： 

1. 关于平均值五 ( y P ) 的个别 y 值的反差，它的估计量由 s 2 给岀。 

2. 与利用么估计 E ( y P ) 相联系的反差，它的估计量由^给岀。 


季度销售额(千美元) 




个别: K P 值的估计方差， 记为^ !，它的计算形式如下: 
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L = 5 2 + s \ 


= 5 + 5 ' 


+ 


(^p 一 无）: 


Z (Xi-x ) 21 


—+ 


~ x ) [ 


X (oa-x)' 


因此，个别 h 值的标准差的估计量为 


5ind ~ S 


\ +丄 + -元 ) 2 

71 X Ur 王）: 


(14.25) 


(14. 26) 


在 Armand 比萨饼连锁店例子中，对于位于有10, 000名学生的校园附近的某一餐馆季度销 
售额与销售额预测相对应的估计标准差的计算 如下： 


Smd = 13. 829 \ 1 






13. 829 VL 1282 


= 14. 69 


y 的个别值的预测区间估计的一般形式 如下: 


TP 值的预测区间估计 


yp — ta /2 Sind 

置信区间为 1- a ， 是基于自由度为 71-2 的 f 分布。 

(14.27) 


区间估计的误差极限为 t a /2 s indo 


利用 fo. 。25 = 2. 306和= 14. 69，得出 Armand 中位于 Talbot 大学附近的餐馆的季度销售额的 
置信度为95%的预测区间。因此， y p = 110, 误差极限 W 2 u =2.306 (14.69) =33. 875, 95%预 
测区间的估计为 


110 ±33. 875 


故预测区间为110 000 ±33 875美元或76 125美元 一143 875美元。注意，某一个餐馆的预测区间 
比所有位于有10 000名学生的校园附近的餐馆平均每季度销售额的置信区间 (98 585美元 一121 415 
美元)要大，这表示估计 y 的平均值比预测 y 的个别值更准确。 

当自变量的值为知=5时，置信区间估计和预测区间估计一样准确。置信区间和较宽的预测 
区间的一般形式见图14.9。 
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性 _i I M i i ■ t ■ ■ ■ I ■■画 n 
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^UW9876543210987654321 
2 221111111111 

季度销售额(千美元) 


方法 
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b . 当 x =3 时，求出 y 的期望值的置信度为95%的置信区间估计。 

c . 当^==3时，估计 y 的个别值的标准差。 

d ， 当 x =3 时，求出置信度为95%的 y 的预测区间。 

34. 练习3的数据如下： 


Xi 

2 

4 

5 

7 

8 

: 

2 

3 

2 

6 

4 


当％ = 3时，求出置信度为95%的置信区间和预测区间。试解释这两个区间有何不同 


应用 


35. 在练习18中，根据平均分数 a ; 和月薪： k 的数据得出回归方程{= 1 790.5 +581^:。 

a . 对于总评分为 3.0 的学生，求出起点平均年薪置信度为95%的置信区间。 

自测题 

b . 如果 JoeHeller 是一名总评分为 3.0 的学生，求出起点月薪置信度为95%的预测区 
间估计。 


36. 在练习10中，根据笔记本性能打分 U ) 和总的等级评分 （ y ) 的数据，得出估计回归方程 



CD 光盘数据 
PCS 


y = 51. 819+0. \ A 5 2 x{PC World , February 2000) 0 

a . 对于性能打分为 200 的笔记本，求出其总的等级评分的点估计？ 

b . 对于所有性能打分为200的笔记本，求出总的等级评分的置信度为95%的区间估 
计。 

c . 假定戴尔公司生产的一款新的计算机性能分数为200。求出这款新的计算机置信度 
为95%的预测区间估计。 

d . 对比 （ b ) 和 ( c ) 中的答案，讨论它们的不同之处。 


37. 在练习13中，给出了有关纳税人调整的总收入和逐项列明的扣减项的数据，数据以千美元为 
单位。如果纳税人调整后的总收入为52500美元，利用回归估计方程 f = 4.68+0.16、 可以 
得出他的总的逐项列明的扣减项的合理水平的点估计为13 080美元。 

a . 对于所有调整后的总收入为52500美元的纳税人，求出平均总的逐项列明的扣减项的置信 
度为95%的置信区间估计。 

b . 对一名调整后的总收入为52500美元的纳税人，求出总的逐项列明的扣减项的置信度为 
95%的预测区间估计。 

c . 假如 ( b ) 中的纳税人宣称其总的逐项列明的扣减项为20400美元，国内税务局要求对该纳 
税人进行审计的要求是否合理？ 

d . 根据 ( b ) 中的答案，如果调整后的总收入为52500美元，国内税务局对其纳税人进行审计 
之前，请给出一个有关总的逐项列明的扣减项的方案。 


38. 参照练习21，根据某一生产过程中的产量和其总成本 y 的数据，得出估计回归方程 f = 


1 246.67 + 7.6“ 
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a . 企业生产计划表明下个月将生产500个产品，求下个月的总成本的点估计。 

b . 求下个月总成本置信度为99%的预测区间估计。 

c . 如果下个月末的会计报告中称下个月实际生产成本为6000美元，管理者是否认为这个月 
总成本过高？试讨论。 

39. 尼尔森媒体研究搜集某一种广告收看的户数。这些数据对广告客户非常有用，因为这 



CD 光盘数据 

Nielsen 1 


将使广告客户了解有多少消费者看到此广告。下面数据是关于收看家庭户数（百万）和 
1997年10月27日至11月2日各种广告播放次数 （November 17, 1997) 的： 


登广告品牌 

广告播放次数 

收看广告的家庭户数 

McDonald’s 

49 

359.6 

Burger King 

42 

296. 1 

HBO 

30 

271.6 

Red Comer movie 

26 

251. 1 

Pizza Hut 

31 

229.3 

Sears 

20 

186.9 

Isuzu Rodeo 

21 

186.3 

MCI 

24 

172.7 

Sprint 

15 

166.0 

JC Penney 

19 

162. 1 


a . 对于给定的广告播放次数，根据这些数据，得出预测收看广告的家庭户数的估计回 
归方程。 

b . 估计回归方程是否有很好的拟合程度？试解释。 

c . 对于所有播放次数为35的广告，求出收看广告的家庭户数的置信度为95%的置信 
区间估计。 

d . 假设 Wendy ’ s 广告播放次数为35。求出收看广告的家庭户数的置信度为95%的预测 
区间估计。 


14.7 计算机方法 

如果没有计算机，进行回归分析计算将是十分耗时间的。在本节中我们介绍利用 Minitab 软件 
包来减少计算负担。 

首先我们将 Armand 例中的学生人数和销售额数据输人 Minitab 工作表中。为了便于理解计算 
机输出结果，我们将自变量命为 Pop ， 因变量为 Sales 。 利用 Minitab , 得出 Armand 比萨饼连锁店 
的输出结果，见图14.10*。输出结果的解释 如下： 

* Minitab 必要计算步骤的输出结果见附录 14.3 。 
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The regression equation is 


Sales = 60.0 

+ 5.00 Pop 




Predictor 

Constant 

Pop 

Coef 

60.000 

5.0000 

Stdev 

9.226 

0.5803 

t-ratio 

6.50 

8.62 

P 

0.000 

0.000 

s = 13.83 

R-sq = 90. 

3% 

R-sq(adj)= 

89.1% 


估计回归方程 


Analysis of Variance 

SOURCE DF SS 

Regression 1 14200 

Error 8 1530 

Total 9 15730 

Fit Stdev.Fit 95% C.I. 95% P.I. 厂 - 

110.00 4.95 ( 98.58, 121.42) ( 76.12, 143.88) ^ - 区间估计 


MS 

14200 

191 


F 

74.25 


P 

0.000 




ANOVA 表 


图 14. 10 Armand 比萨饼连锁店的 Minitab 的输出结果 


1. Minitab 打印出来的估计回归方程为 Sales=60.0 + 5. 00 Pop 。 

2 . 打印出来的表中给出系数6。和6^值，每个系数的标准差，每个系数除以它的标准差得到的 
艺值以及与 f 检验相联系的值。因此，为了检验丑。 ： /3 1= 0和对立假设乩：奸/0,我 
们将 8. 62( 位于 i 值列）和一个适当的临界值比较。这就是 14.5 节中所叙述的 f 检验步 
骤。同样，我们也可利用 Minitab 给出 />- 值进行相同的检验。因为在这个例子中 />- 值 
(精确到小数点后的3位有效数字），样本结果表明应该拒绝原假设 （执： 冴=0)。 

3. Minitab 打印出的估计标准误差 ， s = 13. 83和有关拟合程度的信息。注意 “ R - sq =90.3%” 
是用百分比来表示的确定系数。输出 “ R - sq ( adj ) =89, 1%”将在第15章中介绍。 

4. AN 0 VA 表打印在标题 Analysis of Variance 下面。注意 DF 是自由度的缩写 ， MSR = 14 200， 
MSE = 191 0 F 是这两个值之比为 74. 25。在 14.5 节中，我们介绍了怎样利用 F 值来判断 
Sales 和 Pop 之间是否存在显著关系。 Minitab 同样还打印了 F 检验的 p - 值。因为 />- 值 
为零(精确到小数点后的3位有效数字），从统计上可以判断其关系是显著的。 

5. 在有10000名学生的校园附近的餐馆的期望销售收入的95%的置信区间估计和95%的预 
测区间估计，打印在 AN 0 VA 表下面。与 14. 6节中介绍的相同，置信区间为（98.58, 
121. 42)，预测区间为 (76. 12, 143.88)。 
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应用 

40. 一家房地产公司的销售部门想了解年租金 〆 千美元)和销售价格 y (千美元)之间的关系进 

行回归分析。收集最近销售的公寓住宅的数据，下面是经过计算机处理得到的输出 结果： 


The regression equation is 


Y = 20.0+7. 

21 X 



Predictor 

Coef 

St dev 

t-ratio 

Constant 

20.000 

3.2213 

6.21 

X 

7.210 

1.3626 

5.29 

Analysis of Variance 


• 

SOURCE 

DF 

SS 


Regression 

1 

41587.3 


Error 

7 



Total 

8 

51984.1 


a. 样本中有多少公寓住宅？ 

b . 写出估计回归方程。 

C. 求出&值。 




d. 在显著性水平为 0.05 下， 

利用 f 检验来进行显著性检验。 

e. 如果总的年租金为 50000 美元，估计公寓住宅的销售价格。 

41. 下面是关于某种计算机终端的维护费用 y (英镑/月）和使用率 W 小时/周）的回归分析的计算 

机输出结果： 




The regression 

equation 

is 


Y = 6.1092 + .8951 X 



Predictor 

Coef 

Stdev 


Constant 

6.1092 

0.9361 


X 

0.8951 

0.1490 


Analysis of Variance 



SOURCE DF 

SS 

MS 

Regression 

1 1575.76 1575 

• 76 

Error 

8 349.14 43 

• 64 

Total 

9 1924.90 
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a . 写出估计回归方程。 

b . 在显著性水平为 0.05 时，利用 t 检验判断每月维护费用是否与使用率有关？ 

c . 如果计算机终端每个星期使用25个小时，利用估计回归方程预测其每月维护费用。 

42. 假定得出％在分店销售人员的数目和年销售额： k 的回归模型。对于有关数据进行回归分析的 
计算机输出结果 如下： 


The regression equation is 


Y = 80.0 + 

50.00 X 



Predictor 

Coef 

St dev 

t-ratio 

Constant 

80.0 

11.333 

7.06 

X 

50.0 

5.482 

9.12 

Analysis of 

Variance 



SOURCE 

DF 

SS 

MS 

Regression 

1 

6828.6 

6828.6 

Error 

28 

2298.8 

82.1 

Total 

29 

9127.4 



a . 写出估计回归方程。 

b . 在本次研究中有多少家分店？ 

c . 在显著性水平为 0.05 下，计算 F 统计量，并检验变量之间的关系是否显著? 

d . 预测 Memphis 分店的年销售额，这家分店有12个销售人员。 


43. 全国房屋建筑协会根据市场中等收入的家庭有能力购买住宅的比率，从最强到最弱的市 



CD 光盘数据 
HomeBldg 


场进行排序。从购买力最强的市场中抽取12个市场组成一个样本，中等收入（千美元)和 
房屋销售的中间价格（千美元）数据如下 （ Wall Street Journal Almanac 1998): 


市场 

收入 ( 千美元） 

价格 ( 千美元 ) 

Syracuse, NY 

41.8 

76 

Springfield, IL 

47.7 

91 

Lima, OH 

40, 0 

65 

Dayton, OH 

44.3 

88 

Beaumont, TX 

37.3 

70 

Lakeland, FL 

35.9 

73 

Baton Rouge, LA 

39.3 

85 

Nashua, NH 

56.9 

118 

Racine, WI 

46.7 

81 

Des Moines, IA 

48.3 

89 

Minneapolis - St. Paul, MN 

54.6 

110 

Wilmington, DE - MD 

55.5 

110 
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44. 



CD 光盘数据 
OffRates 


a . 对于给定的市场中等收入，根据这些数据求出能预测市场中房屋中间价格的估计回 
归方程。 

b . 该估计回归方程是否提供了很好的拟合？试解释^ ^ 

c . 当中等收入为40 100美元时，求市场中所有销售房屋的中间价格的95%的置信区 
间估计。 

d . 据报道，纽约 Binghamton 的中等收入为40 100美元。求在 Binghamton 市场销售房屋 
的中间价格的95 %的预测区间估计。 

Cushman & Wakefield 股份有限公司，收集美国市场上办公用房的空闲率和租金率的数 
据。对于18个选取的销售地区，下面是这些地区的中心商业区的综合空置率(％)和平 
均租金（美元/平方英尺）的数据 （TVie Wall Street Journal Almanac 1998) : 


市场名称 

空置率 (％) 

平均租金 

Atlanta 

21.9 

18. 54 

Boston 

6.0 

33.70 

Hartford 

22, 8 

19. 67 

Baltimore 

18. 1 

21.01 

Washington 

12.7 

35.09 

Philadelphia 

14.5 

19.41 

Miami 

20.0 

25.28 

Tampa 

19.2 

17.02 

Chicago 

16.0 

24.04 

San Francisco 

6.6 

31.42 

Phoenix 

15.9 

18.74 

San Jose 

9.2 

26.76 

West Palm Beach 

19.7 

27.72 

Detroit 

20.0 

18.20 

Brooklyn 

8.3 

25.00 

Downtown, NY 

17. 1 

29.78 

Midtown, NY 

10.8 

37.03 

Midtown South, NY 

11. 1 

28.64 


a . 以空置率为水平轴，根据这些数据画出散点图。 

b . 这两个变量之间呈现什么关系？ 

c . 求出在办公用房的综合空置率已知时，能用来预测平均租金率的估计回归方程。 

d . 在显著性水平 0. 05下检验关系的显著性。 

e . 估计回归方程提供了很好的拟合吗？请作出解释。 

f . 在一个综合空置率为25%的中心商业区，预测该市场的期望租金。 

g . 在劳德代尔堡的中心商业区，综合空置率是 11. 3%，预测劳德代尔堡的期望租金。 
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14.8 残差 分析： 验证模型假定 

我们在前面证明了，观察值 i 的残差是因变量的观察值 （ yi ) 与估计值 （ D 之差。 


残差分析 (residual analysis ) 是判断模型假定是否合适的主要模型。 


第 i 个观察值的残差 

A 

ji — y i 

(14.28) 

式中 j , ——因变量的观 察值； 

h ——因变量的估计值。 




换句话说，第 i 个观察值的残差是利用估计回归方程预测•值产生的。对于 Armand 比萨饼 
连锁店，其残差计算结果见表 14. 7。因变量的观察值在第二栏，利用估计值回归方程^ = 60 + 5% 
计算的因变量估计值在第三栏，对应的残差值在第四栏。残差分析将帮助确定回归模型的假设是 
否合适。 


表 14. 7 Armand 比萨饼连锁店的残差计算结果 


学生人数 

销售额 

估计销售额 

残差 

Xi 

y> 

y t =60 + 5 xi 

yi-h 

2 

58 

70 

-12 

6 

105 

90 

15 

8 

88 

100 

-12 

8 

118 

100 

18 

12 

117 

120 

-3 

16 

137 

140 

-3 

20 

157 

160 

-3 

20 

169 

160 

9 

22 

149 

170 

-21 

26 

202 

190 

12 


回顾 Armand 比萨饼连锁店例子的回归假设，简单线形回归模型为 

y = /3o + ^3i^ + e (14. 29 ) 

这个模型假定季度销售额 （ y ) 是学生人数 U ) 加上一个误差项 e 的线性函数。在 14.4 节中对 
误差项的假设 如下： 
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1. E ( e ) ― 0 o 

2. 对所有的％， e 的方差相同，记为 cr 2 。 

3. s 值是相互独立的。 

4. 误差项 e 服从正态概率分布。 

这些假设是用来判断 x 和 y 之间关系是否显著的 t 检验和 F 检验以及在 14. 6节中的置信区 
间估计和预测区间估计。如果误差项的假定显得有问题，则回归关系的显著性假设检验和区间估 
计结果可能不正确。 

残差提供了有关误差项 e 的最佳信息，因此误差分析是判断 e 的假设是否适当的重要步骤。 
许多残差分析是基于残差图的观察得出的。在本节中，我们将介绍下面的残 差图： 

1. 关于自变量^的值的残差图。 

2. 关于自变量的预测值^的残差图。 

3. 标准残差图。 

4. 正态概率图。 


关于的残差图 

关于自变量％的值的 残差图 （residual plot ) 是用水平轴表示自变量的值，用纵轴表示相对应的 
残差值。残差图中每个残差用一点表示。每一点的第一个坐标由 &值 给出，第二个坐标由响应的 
yi - fi 的残差给出。对于 Armand 比萨饼连锁店，根据表 14. 7的数据作出关于 x 的残差图，第一 
个点的坐标是 （2, -12), 对应的= 2和 yi-A = - 12;第二个点的坐标是(6，15)，对应的 
= 6和/2 -： p 2 = 15，等等。图 14. 11是得到的残差图。 

y-y 
+20 r 

參 

參 

參 

+ 10 - # 

0 - - - 

4 • • • 


-20 




0 2 4 6 8 10 12 14 16 18 20 22 24 26 


图 14. 11 Armand 比萨饼连锁店的关于自变置 jc 的残差图 
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在对此残差图的结果解释之前，首先考虑在任何残差图中观察到的形状。图 14. 12给出了三 
个例子。如果对于所有的^值 e 的方差都是相同的，并且描述变量之间关系的回归模型是合理 
的，那么残差图如图 14. 12 A 中所示，所有的散点都落在一条水平带中间。但是，如果对于所 
有的值， e 的方差不相同，例如对于较大的％值，回归线的变异性也较大，如图 14.12 B 所 
示，这种情形，就违背了只有一个常数方差的假设。另一种可能的残差图如图 14. 12 C 所示， 

y-y 

S a I 


残 

差 

0 




图 14. 12 三种回归研究的残差图 
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在这种情况下，就得出了假定的回归模型不能合理地描述变量之间的关系的结论。这时应考虑 
曲线回归模型或者多元回归模型。 

现在回到图 4. 11所示的 Armand 比萨饼连锁店的残差图，这些残差看来好像与图 14. 2 A 中的 
水平型图很相似。因此残差图并没有提供足够的证据使我们对 Armand 比萨饼连锁店回归模型所 
做的假定表示怀疑。此时，我们可以确信 Armand 简单线性回归模型是合理的。 

在对残差图进行有效解释时，经验和好的判断永远是关键的。实际上残差图与图 14.12 中看 
到的三种类型之一恰好完全一致的情形是很少见的。经常进行回归研究和考察残差图的分析人员 
是否能清楚地理解合理的部分与模型假设部分的区别，是值得置疑的。如上所示，这里介绍的残 
差图是用来评价回归模型假设有效性的方法之一。 


关于:?的残差图 

另一种残差图是在水平轴上因变量的预测值:？和在纵轴上表示的残差值。每个残差都用一点 
表示。每点的第一个坐标为义，第二个坐标为相对应的第 i 个残差 y 广必。从表 14. 7的 Armand 数 
据中可得，第一个点的坐标为（70， -12), 相应的; pi =70, yi -yi = - 12;第二个点的坐标为 
(90, 15), 等等。图 14. 13是得到的残差图， 注意， 这种形式的残差图与关于自变量； c 的残差图 
的类型是相同的。这种形式不会使我们怀疑模型假设。对于简单的线性回归，％的残差图和^的残差 
图的形状一样。对于多元回归分析，因为有多个自变量，所以许多的残差图有着更广泛的应用。 


y-y 
+ 20「 




+ 10 



I 





-20 



1 

60 

1 

80 

1 

100 

1 

120 

1 

140 

1 

160 

1 八 

180 J 


图 14. 13 Armand 比萨饼连锁店的关于预 测量: f 的残差图 
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标准残差 

计算机软件包作出的残差图利用了标准残差形式。就像在前面几章中我们看到的，一个随机 
变量可以通过减去均值再通过除以标准差得到。利用最小二重法，残差均值为0。因此，只需简单 
的标准差，就得到了标准残差 (standardized residual ) 。 


可以证明，每 i 个残差的标准差取决于估计量的标准误差 s 和对应的自变量％的值。 


第 i 个残荖的标准差* 

Sy i " y• " 5 V 1 — hi 

(14.30) 

式中——第 i 个残差的标准差 



5 ——估计量的标准误差 

hi ~n + X(xi - x y 

(14.31) 

注意公式 （14. 30) 中有 V ， 故第 i 

个残差标准差依赖于％。一旦计算出每个残差的标准 

差，则将每个残差除以它的标准差，得出标准残差。 


表 14. 8给出了 Armand 比萨饼连锁店例子的标准残差计算过程。上面的计算给出了 

5 = 13. 829, 

图 14. 14是关于自变量； c 的标准残差图。 



第 i 个观察值的标琏残差 

Yi^Yi 

s n - rt 

(14.32) 


表 14. 8 Annand 比萨饼连锁店标准残差的计算过程 

旅店 (xt-x ) 1 


• 

i 

Xi 

Xi 一 X 

(Xi -X)2 

l ( x t -xY 

ht 


yi -yi 

标准残差 

1 

2 

-12 

144 

0. 253 5 

0. 353 5 

11. 119 3 

-12 

-1.079 2 

2 

6 

一 8 

64 

0. 1127 

0.212 7 

12. 270 9 

15 

1.222 4 

3 

8 

一 6 

36 

0. 063 4 

0. 163 4 

12. 649 3 

-12 

- 0, 948 7 

4 

8 

-6 

36 

0. 063 4 

0. 163 4 

12. 649 3 

18 

1.423 0 

5 

12 

-2 

4 

0. 007 0 

0. 107 0 

13 ‘ 068 2 

-3 

- 0. 229 6 

6 

16 

2 

4 

0. 007 0 

0. 107 0 

13.068 2 

-3 

-0. 229 6 

7 

20 

6 

36 

0. 063 4 

0. 163 4 

12. 649 3 

-3 

- 0. 237 2 

8 

20 

6 

36 

0 ‘ 063 4 

0. 163 4 

12. 649 3 

9 

0.711 5 

9 

22 

8 

64 

0.1127 

0. 212 7 

12. 270 9 

-21 

-1.7114 

10 

26 

12 

144 

0 ‘ 253 5 

0. 353 5 

11. 119 3 

12 

1.079 2 


总计 568 


注意： 残差值计算见表 14. 7 。 


* 用 s 代替 <r ， 方程真实提供了第 i 个残差标准差的估计值。 

* 是指观察值 i 的杠杆率。在第 14. 9 节中我们考虑有影响的观察值时，将讨论杠杆率 o 
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0 2 4 6 8 10 12 14 16 18 20 22 24 26 

图 14. 14 Armaud 比萨饼连锁店自变量 x 的标准残差图 

标准残差图提供了误差项 e 服从正态分布假设的直观认识。如果满足这一假设，那么标准残 
差分布也应服从标准正态分布。于是，当查看标准残差图时，期望看到大约有95%的标准残差介 
于 -2和+ 2之间。从图 14. 14中可以看出，在 Armand 例子中所有标准残差都在 - 2到+ 2 

之间。*所以，根据标准残差的分布，我们没有理由怀疑 e 服从标准正态分布的假定。 


正态分布中的小的偏差对回归分析的统计检验没有大的影响。 


因为需要计算估计值3?,残差和标准残差，所以大多数统计软件包都将其作为可供选择的回归 
分析输出结果。因此，很容易得到残差图。对于较复杂的问题，为了作出本节所介绍的残差图， 
计算机软件包是惟一的实用 工具。 

正态概率图 

另一种判断误差项服从正态分布的假设有效性的方法 是正态概率图 （normal probability plot ) 。 
为了介绍如何作出一张正态概率图，我们引 入正态分数的 概念。 

假定从一个平均值为0、标准差为1的正态概率分布中随机选取10个数值，并重复这一抽样 
过程，然后把每个样本中的10个数值按从小到大的顺序排列。现在我们考虑每个样本中的最小 
值。在反复进行的抽样过程中得到的最小值是一个随机变量，称之为一阶顺序统计量。 


















oh 


h 

11 


标准残差 


* 因为在 （14. 30) 中用 S 代替0"，从严格意义上说标准残差的概率分布并不是技术上的正态分布。但是，在大多数回归例 
子中，当样本大小足够大时，可近似于正态分布。 



第 14 章简单线性回归627 



一阶统计量的期望值为 
〕个顺序统计量和10个正 
n 个观察值组成，那么 


龙们介绍如何利用10个正 
卜布。首先将10个标准残 
士数和10个排好顺序的标 
足 正态性假设，那么最小 
* 的标准差应接近第二小的 
-数，纵轴表示标准残差， 

' ,那么在图上标出的这些 
。这张散点图为正 态概率 


:态概率分布图。根据这些 
f 来自一个标准正态概率分 
g 地聚集在45度线附近。 
f 的假设是合理的。一般地 
:假设。在正态概率散点图 
:是来自一个标准正态概率 
], 可以很容易地利用统计 


统计学家证明，对于来自标准正态概率分布的容量为10的样本， 
- 1.55。这个期望值称为正态分数。对于样本容量 n = 10 的情形，有 1( 

表 14.9 /! =10的正态分数态分数（见表14.9)。一般说，如果数据值 E 

―；-就有 n 个顺序统计量和 n 个正态分数。 

统计，顺序 正^= 对于 Armand 比萨饼连锁店例子，现在弓 

2 ' L0 0 态分数去确定标准残差服从标准正态概率夕 

3 -0.65 差进行排序，见表 14. 8。我们将10个正态^ 

4 -°* 37 准残差放在一起，如表 14. 10所示。如果满 

I ~° 0 \1 的标准残差应接近最小的正态分数，第二小 

7 o* 37 正态分数，依此类推。用水平轴表示正态分 

8 0. 65 作一散点图，如果标准残差近似于正态分布 

9 ^ 00 散点，应密集在通过坐标原点的45°线附近 

10 1-55 ^ 

- 团。 

图 14. 15是 Armand 比萨饼连锁店的 IE 

^ 散点偏离直线的程度可 W 判断标准残差是召 

正态分数和排序的标准残差一 丄 _ ^ „ 

—— — --——布。在图 14.15 中，可以看到这些散点紧? 

， 55 所以我们得出误差项服从标准正态概率分布 

-1.00 -L079 2 说，越多的点越靠近 45° 线，越可支持正态 

-.65 -0. 948 7 上，与 45° 线偏离越大，就越可证明残差不 

-°* 37 -°* 2372 分布。正态分数和与此相联系的正态概率 g 

一 0 "°*^ 96 软件包如 Minitab 得到。 


45。线 




图 14. 15 Armand 比萨饼连锁店的正态概率分布图 
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1. 我们利用残差和正态概率图去验证回归模型 
假设的有效性。如果验证表明一个或多个假 
设存在问题，就需要考虑一个不同的回归模 
型或进行数据转换。当违背假设时，一个适 
当的修正措施应依赖良好的判断，来自有经 
验的统计学家的建议可能有宝贵的价值，应 
对其重视。 


2. 残差分析是用来证实回归模型假设成立的主 
要方法。即使没有发现任何被违背的假设， 
也不能得出这个模型给出好的预测的结论。 
但是，如果有其他的统计检验补充支持显著 
性结论，并且有较大的确定系数，那么可以 
用该统计的回归方程得到好的估计值和预测 
值。 



方法 


45. 



自测题 


已知变量^和 y 的数据如下: 


Xi 

6 

11 

15 

18 

20 

yi 

6 

8 

12 

20 

30 


a . 根据这些数据，求出估计回归方程。 

b . 计算残差。 

c . 作出关于自变量 x 的残差图，关于误差项的假定是否得到满足? 

d . 计算标准残差。 

e . 作出关于 f 的标准残差图，从该图中得出你的结论。 


46. 根据下列数据进行回归 研究: 


观察次数 Xi y t 

1 2 4 

2 3 5 

3 4 4 

4 5 6 

5 7 4 


观察次数 Xi yt 

6 7 6 

7 7 9 

8 8 5 

9 9 11 


a . 根据这些数据，求出回归方程。 

b . 作出残差图，关于误差项的假定是否得到满足? 
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应用 


47. 下面是关于四季餐厅的广告费支出（千美元）和收入（千美元）的 数据: 



广告费 

收入 

自测题 

1 

19 


2 

32 


4 

44 

- 

6 

40 


10 

52 


14 

53 


20 

54 


a . 令％为广告费支出（千美元）， y 为收入（千美元）。利用最小二乘法，求出近似这两 
个变量之间关系的直线。 

b . 在显著性水平为 0.05 下，检验广告费支出和收入是否相关。 

c . 依据 f 准备出 y - f 的残差图，利用 （ a ) 的结论获得^的值。 

d . 从残差分析中得出你的结论。是否使用该模型，还是寻找一个更好的模型？ 

48. 参照练习9,已经得出关于销售员的工龄和年销售额的估计回归方程。 

a . 计算残差并作出残差图。 

b . 根据残差图，关于误差项的假定是否合理？ 

49. NYSE (纽约股票交易所）授权10家美国存托凭证公司 （ ADRs ) 代表外国公司的股票 
并将其存入美国国内的银行。下面表格是一家新的 ADRs 公司为10家印度公司进行 
承托凭证的市盈率 （ P / E ) 和投资回报率 （ ROE ) ( Bloomberg Personal Finance , April 
2000 ) : 

CD 光盘数据 
ADRs 

Bharti Televentures 
Gujarat Ambuja Cements 
Hindalco Industries 
ICICI 

Mahanagar Telephone Nigam 

Nirr 

Pentamedia Graphics 
Satyam Computer Services 
Silverline Technologies 
Videsh Sanchar Nigam 


ROE 

P/E 

6.43 

36. 88 

13.49 

27. 03 

14,04 

10, 83 

20. 67 

5. 15 

22. 74 

13. 35 

46. 23 

95.59 

28. 90 

54. 85 

54.01 

189. 21 

28.02 

75.86 

27.04 

13. 17 
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a . 利用计算机软件包来建立表达 y = P/E 和 ROE 之间关系的估计回归方程 

b . 作出关于自变量的标准残差的残差图。 

c. 根据残差图能否得出误差项和模型是否合理的结论？ 


14.9 残差 分析： 异常值和有影响的观察值 

在 14. 8节中我们介绍了当违背回归模型假设时，如何利用残差分析去判断。在本节中，我们 
将讨论在确定估计回归方程时，如何利用残差分析来识别异常值或有影响的观察值。这一节介绍 
当出现这些观察值时，我们将采取哪些步骤。 

检测异常值 

图 14. 16是数据集合中只有一个 异常值 ( outlier ) 的散点图，这个异常值是一个数据点（观察 
值），它与其余的点所显示的趋势不相吻合。异常值代表需要怀疑并且值得加以仔细检査的观察 
值，它们可能代表错误的数据。如果确实如此，需修正这些数据，它们也可能是违背模型假设的 
情形，倘若如此，就需要考虑其他模型。最后，它们可能完全是由于随机原因而产生的异常值， 
此时，应保留这些异常值。 

为了解释检测异常值的过程，以表 14. 11中的数据集为例，图 14. 17是其数据集的散点图。 

表 14. 11 解释异常 
值的数据集 
xi yi 

1 45 

1 55 

2 50 

3 75 

3 40 

3 45 

4 30 

4 35 

5 25 

6 15 


除了第四个观察值（& = 3， y 4 =75) 以外，散点图的形状明显表示存在一个负线性关系。事实 
上，根据散点图上其余数据点的形状，我们期望 y 4 更小，因此我们将其对应的观察值确认为异常 
值。对于简单性回归，人们只要简单观看散点图就能识别异常值。 


:V 



图 14. 16 有一个异常值的数据集 
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图 14. 17 异常值数据集的散点图 


标准残差也可用来识别异常值。如果一个观察值与其他数据的形状偏离很大(例如图 14. 16中 
的异常值），那么对应的标准残差绝对值将很大。许多计算机软件包可自动识别具有大的标准残差 
绝对值的观察值。在图 14. 18我们显示了对表 14. 11中的数据进行回归分析的 Minitab 输出结果。 
接下来输出结果的最后一行显示了观察值为4时的标准残差是 2. 67。 Minitab 指出标准差小于 -2 
或大于2的任何观察值都被看做是不正常值。在这种情形下，这个观察值被单独打印在一行，并 
在标准残差后面打印一个字母 R ， 如图 14. 18所示。因为误差项服从正态分布，所以大约应有 
5%的标准残差超出这个范围。 


The regression equation is 


Y = 65.0 - 7 

.33 X 





Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

64.958 

9.258 

7.02 

0.000 


X 

-7.331 

2.608 

-2.81 

0.023 


3 = 12 . 67 

R-sq 

= 49.7% 

R-sq(adj)= 

43.4% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

1268.2 

1268.2 

7.90 

0.023 

Error 

8 

1284.3 

160.5 



Total 

9 

2552.5 





Unusual Observations 


Obs • 
4 


3.00 


Y 

75.00 


Fit Stdev.Fit Residual St.Resid 

42.97 4.04 32.03 2.67R 


R denotes an obs. with a large st. resid. 


图 14. 18 异常值数据集回归分析的 Minitab 输出结果 
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在决定如何处理异常值时，首先我们检验这个异常值是否是一个有效的观察值。也许在最初 
记录时或将数据录入计算机文件时，就已经有误差了。例如，假定在核定表 14. 17中的异常值时， 
我们发现第四个观察值（如= 3, j 4 = 75) 出现误差，将其修正为為= 3， y4 = 30。 图 14.19 是修正 
>的数值后得到的 Minitab 输出结果。我们看到，利用不经修正的数据会对拟合优度产生相当大的影 
响；而用修正数据， R - sq 的值从 49. 7%增加到 83. 的值从 64.958 减少到59.237,回归线的斜 

率也从 -7. 331改变到 -6. 949。识别出异常值使我们能够修正数据的误差并提高回归效果。 


The regression equation is 


Y = 59.2-6 

.95 X 





Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

59.237 

3.835 

15.45 

0.000 


X 

-6.949 

1.080 

-6.43 

0.000 


S = 5 . 248 

R-sq 

= 83.8% 

R-sq(adj)= 

= 81.8% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

1139.7 

1139.7 

41.38 

0.000 

Error 

8 

220.3 

27.5 



Total 

9 

1360.0 





图 14. 19 异常值数据集修正后的 Minitab 输出结果 


检测有影响的观察值 

有时一个或几个观察值对回归结果有重要影响。图14, 20介绍在简单线性回归情形下一个有 
影响的观察值 (influential observation ) 的例子。在图中，估计回归线有一个负斜率，但是，如果将 
有影响的数据剔除数据集，估计回归线的斜率从负变成正， y 的截距变小。很明显，对于确定估 
计回归线，这个观察值的影响要比其他观察值的影响大得多，而从数据集中删除其他任一数据， 
对估计回归方程的影响较小。 

当模型只存在一个自变量时，可从散点图识别出有影响的观察值。一个有影响的观察值可能 
是一个异常值（即有一个 y 的观察值远偏离散点图中的趋势），它可能对应着远离平均值的 x 的观 
察值等等，（见图 14.20), 或者它也可能是由在某种程度上偏离 y 值的趋势同时在某种程度有趋 
近于％ 的极端值组合而引起的观察值。 

因为有影响的观察值对估计的回归方程可能有如此明显的影响，所以需要对此观察值仔细检 
査。首先我们应该查明在采集或者录入数据时有没有出现错误。如果出现了错误，我们应修正并 
求出新的估计回归方程。如果这个观察值有效，我们应该为这一观察值感到幸运。因为如果这个 
观察值有效，就能帮助我们更好理解模型，并且使我们得到一个比较好的估计回归方程。在图 
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14.20 的数据集中，存在一个有影响的观察值，如果它是有效的观察值，那么将通过取得的中间 
•值去 判断％ 和 y 之间的一个更适合的关系。 

自变量的值是极端值的观察值 为高杠杆率点 (high leverage points) 。图 14.20 中的有影响的观 
察值是一个具有高杠杆率的点。可以根据自变量的值与它们的平均值距离的远近确定一个观察值 
的杠杆率。对于只有一个自变量的情形，用&表示第《个观察值的杠杆率，可利用公式 （14.33) 
计算。 


第 i 个观察值的杠杆率 



(xi~x ) 2 

Z (xi-x ) 2 


(14.33) 


y 



表 14. 12 具有高杠杆 


率的观察值的数据集 


Xi 

yt 

10 

125 

10 

130 

15 

120 

20 

115 

20 

120 

25 

110 

70 

100 


从公式中可以看出，距离平均值愈远，第 i 个观察值的杠杆率愈高。 
许多统计软件包能自动地识别高杠杆率的观察值作为标准回归分析输 
出的一部分。为了说明 Minitab 统计软件包如何识别具有高杠杆率的观察 
值，考虑表 14. 12中的数据集。 

图 14. 21是表 14. 12中数据集的散点图，很清楚地看出第7个观察值 
U =70, y = 100) 是一个含有变量％的极端值的观察值。因此，我们期待高 
杠杆率的点被识别出来。对于这个观察值，利用公式 （14. 33) 计算杠杆率。 

& = 丄 + — ^二幻二 = 丄 + (70 - 24. 286)?, = 

几 z (Xi-x ) 2 7 2 621. 43 ^ 


对于简单线性回归，如果观察值的杠杆率& > 1，那么 Minitab 将把 
这个观察值识别为高杠杆率的观察值。对于表 14.12 中的数据集， 
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y 

130.00 


120. 00 


110.00 


100. 00 


10.00 25. 00 40.00 55.00 70.00 85.00 

图 14. 21具有高杠杆率观察值的数据集的散点图 

■^ =导= 0.86。因为心=0.94>0.86,所以 Minitab 将把第7个观察值识别为有高杠杆率的点。图 

14.22 给出了这个数据集回归分析的 Minitab 输出结果。第7个观察值 U = 70, y = 100) 被识别为有 
重要影响的观察值，并在表的底部单独打印一行，在这行的右边缘处用 X 标出。 

可以用计算机软件包识别有影响的观察值， Minitab 的选择规则讨论如下。 


有影响的观察值是因为大的残差和高杠杆率的交互作用而产生的，所以一般很难检测出。在 
检测某一观察值的影响时，可利用两种检测方法，其中一种被称为库克 ( Cook ) D 统计量，将在第 
15章中加以讨论。 


The regression equation is 
Y = 127 -0.425 X 

Predictor Coef Stdev t-ratio p 

Constant 127.466 2.961 43.04 0.000 

X -0.42507 0.09537 -4.46 0.007 

s = 4.883 R-sq = 79. 9% R-sq(adj) = 75. 9% 

Analysis of Variance 

f 

SOURCE DF 

Regression 1 
Error 5 

Total 6 

Unusual Observations 

Obs. X Y Fit Stdev.Fit Residual St.Resid 

7 70.0 100.00 97.71 4.73 2.29 1.91 X 

X denotes an obs. whose X value gives it large influence 


SS MS F p 

473.65 473.65 19.87 0.007 

119.21 23.84 

592.86 






• • 






具有髙杠杆率观察值 




图 14. 22 具有高杠杆率观察值的数据集的 Minitab 输出结果 
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一旦一个观察值由于大的残差和高杠杆率 
被识别为是潜在的有影响的观察值，就需要这 
个观察值，对估计回归方程的影响进行评估。 
较高级的教科书将会对此进行讨论。但是，如 


果人们不熟悉教科书的内容，那么，可将一个 
简单的，不管包含或不包含有影响的观察值都 
适用的步骤用于回归分析。这个方法虽然费时 
间，但仍能得出观察值对分析结果的影响。 



方法 


50. 考虑下列关于两个变量和的 数据: 


ggc: 二齋 


自测题 


Xi 

135 

110 

130 

145 

175 

160 

120 

yi 

145 

100 

120 

120 

130 

130 

110 


a . 计算这些数据的标准误差。你是否发现数据中存在任何异常值？试解释。 

b . 作出关于$的标准残差图，这个残差图显示出任何异常值吗？ 

c . 画出这些数据的散点图，散点图表明在这些数据中有任何异常值吗？通常，对于简 
单线性回归，异常值表示什么？ 


51,考虑下面关于两个变量％和 y 的 数据: 


Xt 

4 

5 

7 

8 

10 

12 

12 

22 

yt 

12 

14 

16 

15 

18 

20 

24 

19 


a . 计算这些数据的标准残差，这些数据中存在任何异常值吗？试解释。 

b . 计算这些数据的杠杆率，在这些数据中是否有任何有影响的观察值？试解释。 

c . 建立这些数据的散点图，此散点图中存在有影响的观察值吗？试解释。 


应用 


52. 


下面是10个主要啤酒品牌的广告费用（百万美元）和销售量（百万桶）的数据 


级 ( superbrands ’ 98 , October 20, 1997 ) : 


自测题 



CD 光盘数据 
Beer 


啤酒品牌名称 

广告费 ( 百万美元） 

销售置 ( 百万桶 ) 

Budweiser 

120.0 

36.3 

Bud Light 

68.7 

20.7 

Miller Lite 

100.1 

15.9 
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53. 



CD 光盘数据 

\ 


Nielsen2 


54. 



CD 光盘数据 
CEO 


(续表) 


啤酒品牌名称 

广告费 ( 百万美元） 

销售置 ( 百万桶 ) 

Coors Light 

76.6 

13.2 

Busch 

8.7 

8. 1 

Natural Light 

0 . 1 

7. 1 

Miller Genuine Draft 

21.5 

5.6 

Miller High Life 

1.4 

4.4. 

Busch Light 

5.3 

4,3 

Milwaukee’s Best 

1.7 

4.3 


a . 根据这些数据建立估计回归方程。 

b . 应用残差分析来判断是否存在任何异常值和 （或） 有影响的观察值，简要概括你的发 
现和结论。 

尼尔森媒体研究搜集收看一个特定广告的家庭户数数据。这些信息对广告客户非常有 
益，因为它使广告客户了解有多少消费者看过这个广告。下面数据是 1997 年 11 月 24 
曰至 30 曰一周内收看该广告的家庭户数（百万户）和广告播出次数 Decem ¬ 
ber 15, 1997)： 


登广告的品牌 

广告播出次数 

收看广告的家庭户数 ( 百万户 ) 

Sears 

95 

758. 8 

JC Penney 

46 

323.0 

Burger King 

41 

275.3 

Polaroid One Step Express 

38 

241. 8 

Wendy’s 

29 

219.9 

McDonald’s 

32 

198,5 

Target 

25 

193.8 

Kmart 

21 

189.7 

Visa 

21 

161.9 

Nissan Frontier 

16 

160.0 


a . 在广告播出次数已知时，求出用来预测收看该广告家庭户数的估计回归方程。 

b . 利用残差分析来判断是否存在任何异常值和 （或） 有影响的观察值，简要总结你的 
发现和结论。 

下 表列出 20 家公司的市值和执行总裁 （ CEO ) 的年薪的数值 Wall Street Journal , 
February 24, 2000, and April 6, 2000) : 


Anheuser-Busch 

AT&T 

Charles Schwab 

Chevron 

DuPont 

General Elec. 

Gillette 

IBM 

Johnson & Johnson 
Kimberly-Clark 
Merrill Lynch 
Motorola 
Philip Morris 
Procter & Gamble 


市值 ( 百万 美元 ) 

32 977.4 
162 365. 1 
31 363. 8 
56 849.0 
68 848.0 
507 216.8 
44 180. 1 
194 455, 9 

143 131.0 
35 377.5 
31 062. 1 
92 923.7 
54 421.2 

144 152.9 


CEO 年薪 ( 千美元 ) 

1 130 
1 400 
800 

1 350 
1 000 
3 325 

978 

2 000 
1 365 

950 
700 
1 275 
1 625 
1 318.3 
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市值（百万 美元 } 

CEO 年薪（千美元 ) 

Qualcomm 

116 840.8 

773 

Schering-Plough 

62 259.4 

1 200 

Sun Microsystems 

120 966.5 

116 

Texaco 

30 040.7 

950 

US West 

36 450.8 

897 

Walt Disney 

61 288.1 

750 


a . 给定公司市值，给出用来预测 CEO 年薪的估计回归方程。 

b . 利用残差分析来判断是否存在任何异常值和/或有影响的观察值。简要概括一下你 
的发现和结论。 



在本章中我们介绍了如何用回归分析来推断一个因变量 y 是怎样依赖一个自变量％的方法。 
对于简单线性回归情形，回归模型 r = A > + £的简单线性回归方程为五 ( y ) + 该方程 

描述了 y 的平均值或期望值是如何依赖 X 的。我们利用样本数据和最小二乘法求出估计回归方程 
r =6 o + 实际上 ，6。 和 h 是用来估计模型中未知参数 戊 和 A 的样本统计量。 

为了估计回归方程拟合度，我们引入确定系数的概念。确定系数是因变量 y 中的变异能被估 
计回归方程所解释的部分所占比例。我们还回顾了相关系数的概念，它是描述两变量之间线性相 
关强度的一个度量。 

在这一章里，我们讨论了回归模型和它的误差项 e 的假设，并且根据这些假设，建立了 t 检 
验和检验，这两个检验都是判断二变量间的关系在统计上是否显著的方法。我们介绍了如何利 
用估计回归方程来得出 y 平均值的置信区间估计和 y 个别值的预测区间估计的方法。 

在本章结尾，用一节介绍了回归问题的计算机解法，用两节介绍了利用残差分析来检验模型 
假设的有效性并且鉴别异常值和有影响的观察值。 


水语辞义 


因 变量： 用来预测或被解释的变量，用 y 表示。 

自 变量： 进行预测或进行解释的变量，用^表示。 

简单线性 回归： 涉及一个自变量和一个因变量，并且变量之间的关系用一条直线近似表示的回归 

分析。 

回归 模型： 表达因变量 y 如何依赖自变量； c 和误差项的方程。对于简单线性回归情形，回归模型 
是 : r = + + 

回归 方程： 表达因变量的平均值或期望值如何依赖自变量的方程。对于简单线性回归情形，回归 
方程是 E( y) = /3o + /Bix 。 

估计回归 方程： 利用最小二乘法，根据样本数据求出回归方程的估计。对于简单线性情形，估计 
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回归方程是;^ = bo + b \ x 0 

散 点图： 用水平轴表示自变量，用纵轴表示因变量的二维数据图。 

最小二 乘法： 用来求出估计回归方程的过程，目标是使最小。 

判定 系数： 估计回归方程拟合优度的度量，它能被理解为因变量 y 的变异性能被估计回归方程所 
解释的部分所占的比例。 

第 f 个 残差： 因变量的观察值与利用估计回归方程得到的预测值之间的 差异； 即对于第；个观察 

值，残差为 

相关 系数： 两变量之间线性关系强弱的量度(在前面第3章中已讨论过）。 

均方 误差： 误差项的方差沪的无偏估计量，用 MSE 或/表示。 

估计量的标准 误差： 误差均方的平方根，用 s 表示，它是误差项 e 的标准差 cr 的估计。 

ANOVA 表： （方差分析表）经常用于概括与显著性 F 检验相联系的计算。 

置信区间 估计： 对于一个给定的； c 值， 7 的平均值的区间估计。 

预测区间 估计： 对于一个给定的％值， y 的一个个别值的区间估计。 

残差 分析： 用于查明关于回归模型所做的假定是否成立的分析方法，残差分析还被用于识别异常 
值和有影响的观察值。 

残 差图： 用图表示残差，它是用于推断关于回归模型所做的假定是否成立的一种图示方法。 

标准残差： 残差除以它的标准差后得到的数值。 

正态概 率图： 为标准残差值作出的正态分数图，正态概率图能帮助判断关于误差项是否服从正态 

分布的假定。 

异 常值： 一个数据点或观察值，它与其余的数据点所显示的趋势不相吻合。 

有影响的观 察值： 对回归结果有显著影响或重要作用的观察值。 

高杠杆 率点： 含有自变量极端值的观察值。 


f 要公式 


简单线性回归模型 




y = /3o + /3ix + e 

(14.1) 

简单线性回归方程 




E( y) ^ Po + (3\x 

(14.2) 

估计简单线性回归方程 




y - bo + bix 

(14,3) 

最小二乘准则 




min Z ( 7 * ~ 7») 2 

(14,5) 



估计回归方程的斜率和 y 截距 
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j Z(^«~ 3 c)(r«-r) 
b]= Kxi-x ) 2 

(14.6) 


60 - b \ x 

(14.7) 

误差平方和 

SSE= Kji-j.) 2 

(14.8) 

总的平方和 

sst= Kj.-y) 2 

(14.9) 

回归平方和 

SSR= Z(y t --r) 2 

(14.10) 

SST 、 SSR 和 SSE 之间的关系 

SST = SSR + SSE 

(14.11) 

判定系数 

,SSR 

P= SST 

(14.12) 

样本相关系数 




~ = 的计算式） V 判定系数 

(14.13) 


=(h 的计算式 ） 


均方误差 （ cr 2 的估计最） 

2 SSE 

5 = MSE = 1 

n - 2 

(14.15) 

估计置的标准误差 

s= VMSE = J SSE - 

V n - 2 

(14.16) 

bi 的标准差 

a 

= 

V x (xi-x ) 2 

(14.17) 



640 商务与经济统计 


b \ 的估计标准差 


t 检验统计量 


均方回归 


F 检验统计置 

y P 的估计的标准差 

E { y v ) 的置信区间估计 

个别值的估计的标准差 

值的预测区间估计 

第 f 个观察值的残差 

第 I ‘个残差的标准差 

第 f 个观察值的标准残差 


s 



VS (xi-x ) 2 



MSR = 


SSR 

自变量的个数 


= MSR 
_ MSE 





(x D -x ) 2 
E (xi-x ) 2 


y p ± la / 负％ 



y ^ i ta/2SinS 


Jx ~ Ji 




(14.18) 

(14.19) 

(14.20) 

(14. 21) 

(14.23) 

(14.24) 

(14. 26 ) 

(14.27) 

(14.28) 

(14.30) 

(14.32) 



第 14 章简单线性回归641 


第 I ’个观察值的杠杆率 



(xj-x ) 2 

Y.ixi-x) 2 


(14. 33) 


种充 f 东 


55. 一个较大值的 P 意味着两变量之间存在因果关系吗？试解释。 

X 

56. 请用你自己的话，对于一个给定的 X ，对 y 的平均值的区间估计和 y 的一个个别值的区间估 
计之间的区别作出解释。 


57. 检验 A =0是否成立的目的是什么？如果拒绝 A =0,这是否意味着一个很好的拟合? 


58. 对10只选取出来的公开发售的原始股票，下表是它们的销售数量（百万）和期望价格 



CD 光盘数据 
IPO 


(预计的低价格和预计的高价格的平均价格 ） 的数据 （ tAS/l Today , Novemberl 7, 1997)： 


公司 

销售数量 

期望价格 ( 美元 ) 

American Physician 

5.0 

15 

Apex Silver Mines 

9.0 

14 

Dan River 

6.7 

15 

Franchise Mortgage 

8. 75 

17 

Gene Logic 

3.0 

11 

International Home Foods 

13.6 

19 

PRT Group 

4.6 

13 

Rayovac 

6.7 

14 

RealNetworks 

3.0 

10 

Software AG Systems 

7.7 

13 


a . 以股票销售数量为自变量，期望价格作因变量，给出估计回归方程。 


b ， 在显著性水平为 0.05 下，这两个变量之间存在一个显著关系吗？ 

c . 估计回归方程对数据是否给出较好的拟合？试解释。 

d . 利用估计回归方程对公开发售600万原始股的一个公司，估计该公司股票的期望价 
格。 


59. 



CD 光盘数据 


公司股票回购方案常被认为能保护股东的利益。但是 ， First Call / Thomson 金融机构内 
部研究经理 Robert Gabele 发现股票回购方案只是作为公司高层管理人员期权股票的取 
得方法。在所有公司中，期权股票在1998年已存在了，占所有公开买卖普通股票的 
6.2%。下面是13家公司期权股票所占的数量和公开买卖的股票数量（历 Per ¬ 
sona / Finance , January/February , 2000) : 


Options 
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能公开买卖的期权股票 ( 百万） 

公开买卖的普通股票 ( 百万 ) 

Adobe Systems 

20.3 

61.8 

Apple Computer 

52.7 

160.9 

Applied Materials 

109. 1 

375.4 

Autodesk 

15.7 

58.9 

Best Buy 

44.2 

203. 8 

Fruit of the Loom 

14.2 

66.9 

ITT Industries 

18,0 

87.9 

Merrill Lynch 

89.9 

365.5 

Novell 

120.2 

335.0 

Parametric Technology 

78.3 

269.3 

Reebok International 

12. 8 

56. 1 

Silicon Graphics 

52.6 

188.8 

Toys R Us 

54.8 

247.6 


a . 对于给定的普通股票数量，求出估计能公开买卖的期权股票数量的估计回归方程。 

b . 假定一家公司有15000万公开买卖的普通股票，利用估计回归方程估计能公开买卖 
的期权股票数量。 

c . 你是否相信估计回归方程能很好地预测公开买卖的期权股票数量？用 r 2 来支持你的 
结论。 

60, Value Line (February 24,1995 ) 报告 Woolworth 公司的市场 )0 值。个别股票的市场值能由简单 
线性回归确定。对于每一种股票，因变量是它的季度收益百分比（资本增值扣上股息）减去无 
风险投资的收益百分比（国债收益率为无风险贴现率）。自变量是证券市场（标准普尔 500) 的 
季度收益百分比（资本增值加上股息）减无风险投资的收益百分比。利用季度数据求出估计回 
归方程。市场冷值为估计回归方程（仏）。市场冷是股票风险的变量，市场 )8 大于1表明这种 
股票比市场一般水平不稳定 得多； 如果市场 )8 小于1表明股票比市场一般水平稳定得多。下 
表显示了 10个季度的标准普尔500和 IBM 的收益百分比与无风险百分比 之差： 


标准普尔 500 

1.2 

-2.5 

-3.0 

2.0 

5.0 

1.2 

3.0 

- 1.0 

0.5 

2.5 


IBM 

-0.7 
- 2 . 0 
-5.5 

4.7 

1.8 
4. 1 
2.6 
2.0 

-1.3 


a . 求出能确定 IBM 的市场 )8 值的估计回归方程。 IBM 的市场卢值是多少？ 

b . 在显著性水平为 0.05 下，进行显著性关系检验。 
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c . 估计的回归方程对观察数据给出了一个好的拟合吗？试解释。 

d . 利用 Woolworth 和 IBM 的市场值，比较这两种股票的风险。 


61. 下面是20个城市的每天最高和最低温度的数据 May 9, 2000)： 



CD 光盘数据 
HighLow 



最低 

最高 

推典 

54 

75 

曼谷 

74 

92 

开罗 

57 

84 

哥本哈根 

39 

64 

都柏林 

46 

64 

哈瓦那 

68 

86 

香港 

72 

81 

约翰内斯堡 

50 

61 

伦敦 

48 

73 

马尼拉 

75 

93 

墨尔本 

50 

66 

蒙特利尔 

52 

64 

巴黎 

55 

77 

里约热内卢 

61 

80 

罗马 

54 

81 

汉城 

50 

64 

新加坡 

75 

90 

悉尼 

55 

68 

东京 

59 

79 

温哥华 

43 

57 


a . 以最低温度为横坐标，最高温度为纵坐标，画出散点 图。. 

b . 利用 （ a ) 中的散点图来表示这两个变量之间的关系？ 

c . 对于给定的最低温度，求出估计最高温度的估计回归方程。 

d . 在显著性水平为 0.05 下，进行显著性关系检验。 

e . 估计回归方程提供了很好的拟合吗？试解释。 

f . 求出样本相关系数。 


62. PJH & D 公司正在决定是否为新的文字处理系统签订一份维修合同。管理者认为维修费用与使 
用次数有关，收集每周使用次数（小时）和年维修费用（百美元）的统计资料 如下： 


使用次数 ( 小 时） 

年维修费用 

13 

17.0 

10 

22.0 

20 

30.0 

28 

37.0 

32 

47.0 

17 

30.5 

24 

32.5 

31 

39.0 

40 

51.5 

38 

40.0 
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a . 求出表达年维修费用和每周使用次数的估计回归方程。 

b . 在显著性水平为 0.05 下，对 ( a ) 中的关系进行显著性检验。 

c . PJH & D 期望每个星期文字处理系统使用时间为每周30个小时。求出该公司的年维修费用 
的95%预测区间。 

d . 如果维修费用合同的费用为每年3000美元，你是否建议签订这份合同？阐述理由。 

63.在生产过程中，装配线的速度（英尺每分钟）认为是检验过程中次品数目的主要影响因素。为 
了验证这个结论，管理者设计了一种情形，在该情形下每批产品在不同的装配速度下接受检 
验，下表是收集的 数据： 


装配线装配速度 被发现的次品数置 


20 

21 

20 

19 

40 

15 

30 

16 

60 

14 

40 

17 


a . 求出表达装配速度和被发现次品数量关系的估计回归方程。 

b . 在显著性水平为 0.05 下，判断装配速度和发现次品数量之间是否相关？ 

c . 估计回归方程能为这些数据提供很好的拟合吗？ 

d . 如果装配速度为每分钟50英尺，给出次品个数的置信度为95%的置信区间 


64. 某一大城市医院聘请一名社会学家来调查每年员工无故缺工的天数与职工从家里到工作单位 
距离（英里）之间的关系。由10名员工组成一个样本，收集的数据 如下： 


到工作单位的距离 
1 

3 

4 
6 
8 

10 

12 

14 

14 

18 


无故缺工的天数 
8 

5 
8 
7 

6 

3 
5 
2 

4 
2 


a . 画出这些数据的散点图。图中是否显现出线性关系？试解释。 

b . 利用最小二乘法求出估计回归方程。 

c . 这两个变量之间是否有显著关系？取《 = 0.05。 

d . 是否估计回归方程提供很好的拟合？试解释。 

e . 对于住在离公司5英里的员工，利用 （ b ) 中的估计回归方程，求出该员工每年无故缺工的 
预期天数的95%置信区间估计。 


65. 对于一个人口较多的地区，交通部门想了解公共汽车的使用时间和年维修费用之间是否存在 
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某种关系。由10辆公共汽车组成一个样本，收集的数据如下: 


公共汽车使用时间 ( 年 ) 
1 
2 
2 
2 
2 

3 

4 
4 


维修费用（美元 ) 

350 

370 

480 

520 

590 

550 

750 

800 


5 790 

5 950 

a . 利用最小二乘法求出估计回归方程。 

b . 在显著性水平为 0.05 下，检验这两个变量是否显著相关？ 

c . 最小二乘回归线是否给出了观察数据一个好的拟合？试解释。 

d . 如果有1辆公共汽车使用了 4年，得出这辆公共汽车年维修费用的95%预测区间。 


66. Givens 大学的一名市场营销学教授对学生用在学习上的时间和所取得的学习成绩之间的关系 
感兴趣。收集了 10名学生最后一学期的学习成绩 如下： 


用在学习上的时间 

学习成缋 

45 

40 

30 

35 

90 

75 

60 

65 

105 

90 

65 

50 

90 

90 

80 

80 

55 

45 

75 

65 


a . 求出表达学生取得的学习成绩是如何依赖用在学习上的时间的估计回归方程。 

b . 在 ct = 0 . 05的显著性水平下，检验该模型的显著性。 

c . 如果 Mark Sweeney 用在学习上的时间为95个小时，预测他的成绩。 

d . 求出 Mark Sweeney 学习成绩总分数的95%预测区间。 

67. 下面是由 Syracuse 大学的 Transactional Records Access Clearinghouse 记录的数据，该数据为国 
内税务局进行审计的比例。下表的数据是由国内税务局随机抽取的20个地区调整后的平均总 
收入和经审计的收入的比例 （ffee Wall Street Journal Almanac 1998 ) : 
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CD 光盘数据 
IRS Audit 


地区 

调整后的总收入 ( 美元） 

经审计的总收入的比例 (％> 

洛杉矶 

36 664 

1.3 

萨克拉门托 

38 845 

1 . 1 

亚特兰大 

34 886 

1 . 1 

博伊西 

32 512 

1 . 1 

达拉斯 

34 531 

1.0 

普罗维登斯 

35 995 

1.0 

圣何塞 

37 799 

0,9 

夏延 

33 876 

0.9 

法戈 

30 513 

0.9 

新奥尔良 

30174 

0.9 

俄克拉何马城 

30 060 

0.8 

休斯敦 

37 153 

0.8 

波特兰 

34 918 

0.7 

菲尼克斯 

33 291 

0.7 

奥古斯塔 

31 504 

0.7 

阿尔伯克基 

29 199 

0.6 

格林斯伯勒 

33 072 

0.6 

哥伦比亚 

30 859 

0.5 

纳什维尔 

32 566 

0.5 

布法罗 

34 296 

0.5 


a . 对于给定的调整后的收入，求出能用来预测经审计的收入比例的估计回归方程。 

b . 在显著性水平为 0.05 下，判断调整后的总收入和经审计的收入比例是否相关？ 

c . 估计的回归方程是否给出很好的拟合？试解释。 

d . 假定平均的调整后的总收入为35000美元，利用 （ a ) 中的回归方程来计算该地区经 
审计的期望比例的95 %置信区间估计？ 


案例研究1教育支出和学生成绩 


学习成绩与各州对教育的支出之间有多大的关系？在许多州，纳税人经常被州立学校要求提 
高在教育上的税收支出。因此需要通过分析支出和学生成绩的数据来判断在州立学校的学生成绩 
和教育支出之间是否有任何关系？ 

美国联邦政府的“国家教育进展评估 ” （National Assessment of Educational Progress , NAEP ) 方案 
经常对学生成绩进行评估。表 14. 13给出了对于参加 NAEP 方案的35个州，其每年花在每个学 
生身上总的费用和 NAEP 测试综合分数的统计数据，这些数据存储在文件 NAEP 中。综合分数是 
指数学、自然科学和阅读三门课程 1996(1994 年是阅读课）的 NAEP 考试的总和。对8年级的学 
生进行测试，对4年级学生进行阅读测试，满分为1 300。表 14. 14列出了未参加 NAEP 调查的 
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14个州对每名学生每年的经常性教育支出。这些数据登载在《福布斯》 （ Novem ¬ 
bers , 1997) 的一篇关于教育支出和学生学习成绩水平的论文中。 


表 14. 13 参加 NAEP 方案的州每名学生的教育经费支出和综合分数 



CD 光盘数据 
NAEP 


州名 

教育经费支出（美元每名学生） 

综合分数 

路易斯安那 

4 049 

581 

密西西比 

3 423 

582 

加利福尼亚 

4 917 

580 

夏威夷 

5 532 

580 

南卡罗来纳 

4 304 

603 

阿拉巴马 

3 777 

604 

佐治亚 

4 663 

611 

佛罗里达 

4 934 

611 

新墨西哥 

4 097 

614 

阿肯色 

4 060 

615 

特拉华 

6 208 

615 

田纳西 

3 800 

618 

亚利桑那 

4 041 

618 

西弗吉尼亚 

5 247 

625 

马里兰 

6 100 

625 

肯塔基 

5 020 

626 

得克萨斯 

4 520 

627 

纽约 

8 162 

628 

北卡罗来纳 

4 521 

629 

罗德岛 

6 554 

638 

华盛顿 

5 338 

639 

密苏里 

4 483 

641 

科罗拉多 

4 772 

644 

印第安纳 

5 128 

649 

犹他 

3 280 

650 

怀俄明 

5 515 

657 

康涅狄格 

7 629 

657 

马萨诸塞 

6 413 

658 

内布拉斯加 

5 410 

660 

明尼苏达 

5 477 

661 

衣阿华 

5 060 

665 

蒙大拿 

4 985 

667 

威斯康辛 

6 055 

667 

北达科他 

4 374 

671 

緬因 

5 561 

675 


管理报告 

1. 对这些数据作出数值和图形的概述。 

2. 利用回归分析来判断每个学生的教育经费支出和 NAEP 测试综合分数之间的关系，讨论你 
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的结论。 

3. 根据这些数据求出估计回归方程，试问能否用该方程来估计未参加 NAEP 方案的州的学生 
分数吗？ 

4. 假定你只考虑每名学生的教育经费支出在4000美元至6000美元之间的州。对于这些 
州，两变量之间的关系与根据35个州的全部数据所得出的结论显现出任何不同吗？讨论 
你的结论。如果将教育经费支出少于4000美元或者多于6000美元的州删除，你认为这 
种删除是否合理？ 

5. 对未参加 NAEP 方案的州，估计其学生综合分数。 

6. 根据上面的分析，你认为学生的教育水平与州教育经费支出之间有多少关系？ 


表 14. 14 未参加 NAEP 方案的班每名学生的教育支出 


州名 

每名学生的支出（美元） 

爱达荷 

3 602 

南达科他 

4 067 

俄克拉何马 

4 265 

内华达 

4 658 

堪萨斯 

5 164 

伊利诺伊 

5 297 

新罕布什尔 

5 387 

俄亥俄 

5 438 

俄勒冈 

5 588 

佛蒙特 

6 269 

密歇根 

6 391 

宾夕法尼亚 

6 579 

阿拉斯加 

7 890 


案例研究2美国交通局 

为了研究交通安全，美国交通局收集了 42个城市中每1 000个驾驶员中发生死亡事故的车祸 
次数和有驾驶执照的司机中21岁以下所占比例的数据。下面是一年内收集的数据，这些数据存储 
在光盘中的文件 Safety 中。 
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CD 光盘数据 
Safety 


21 岁以下 

每 1 000 个驾驶司 

21 岁以上 

每 1 000 个驾驶司 

所占比例 (％) 

机中发生车祸次数 

所占比例 (％) 

机中发生车祸次数 

13 

2.962 

17 

4. 100 

12 

0. 708 

8 

2. 190 

8 

0. 885 

16 

3.623 

12 

1.652 

15 

2. 623 

11 

2.091 

9 

0. 835 

17 

2. 627 

8 

0. 820 

18 

3.830 

14 

2. 890 

8 

0.368 

8 

1.267 

13 

1. 142 

15 

3.224 

8 

0. 645 

10 

1.014 

9 

1.028 

10 

0. 493 

16 

2. 801 

14 

1.443 

12 

1.405 

18 

3.614 

9 

1.433 

10 

1.926 

10 

0. 039 

14 

1.643 

9 

0.338 

16 

2. 943 

11 

1.849 

12 

1.913 

12 

2. 246 

15 

2.814 

14 

2. 855 

13 

2. 634 

14 

2. 352 

9 

0. 926 

11 

1.294 

17 

3.256 


管理报告 

1. 对这些数据作出数值和图示的概述。 

2. 利用回归分析去判断发生死亡事故的车祸次数和司机中21岁以下所占比例之间的关系。 
试讨论你的结论。 

3. 从你的分析中，你能得出什么结论或得出什么建议吗？ 


案例研究3校友捐赠 

校友捐赠现在成为大学重要的收入来源。如果管理者希望判断哪种因素能提高校友捐赠比例， 
他们可能相应采取措施来提高校友捐赠。研究表明那些对教师更满意的学生更可能顺利毕业。因 
此，有人怀疑班级越小，学生一全体教职员工比率越低，将会导致很高的顺利毕业率，从而提高校 
友捐赠的比例。表 14. 15列出了 48家大学的数据 如 Cdfcges ， 2000年教育卷）。列小于 
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20的班级的百分比表示为小于20名学生的班级百分比。列学生一全体教职员工比表示为学生总 
人数除以总教职员工数的比率。最后，列捐赠率表示为捐赠大学的人数比例。 


表 14.15 48 个州立大学的数据 



CD 光盘数据 
Alumni 


小于 20 的班级的百分比 学生一全体教职员工比 捐赡率 


Boston College 

39 

13 

25 

Brandeis University 

68 

8 

33 

Brown University 

60 

8 

40 

California Institute of Technology 

65 

3 

46 

Carnegie Mellon University 

67 

10 

28 

Case Western Reserve Univ. 

52 

8 

31 

College of William and Mary 

45 

12 

27 

Columbia University 

69 

7 

31 

Cornell University 

72 

13 

35 

Dartmouth College 

61 

10 

53 

Duke University 

68 

8 

45 

Emory University 

65 

7 

37 

Georgetown University 

54 

10 

29 

Harvard University 

73 

8 

46 

Johns Hopkins University 

64 

9 

27 

Lehigh University 

55 

11 

40 

Massachusetts Inst, of Technology 

65 

6 

44 

New York University 

63 

13 

13 

Northwestern University 

66 

8 

30 

Pennsylvania State Univ. 

32 

19 

21 

Princeton University 

68 

5 

67 

Rice University 

62 

8 

40 

Stanford University 

69 

7 

34 

Tufts University 

67 

9 

29 

Tulane University 

56 

12 

17 

U. of California - Berkeley 

58 

17 

18 

U. of California - Davis 

32 

19 

7 

U. of California - Irvine 

42 

20 

9 

U. of California - Los Angeles 

41 

18 

13 

U. of California - San Diego 

48 

19 

8 

U. of California - Santa Barbara 

45 

20 

12 

U. of Chicago 

65 

4 

36 

U. of Florida 

31 

23 

19 

U. of Illinois - Urbana Champaign 

29 

15 

23 

U. of Michigan - Ann Arbor 

51 

15 

13 

U. of North Carolina - Chapel Hill 

40 

16 

26 

U. of Notre Dame 

53 

13 

49 

U. of Pennsylvania 

65 

7 

41 

U. of Rochester 

63 

10 

23 


U. of Southern California 


13 


22 


53 
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(续表) 


小于 20 的班级的百分比 

学生一全体教职员工比 

捐赠率 

U. of Texas - Austin 

39 

21 

13 

U. of Virginia 

44 

13 

28 

U. of Washington 

37 

12 

12 

U. of Wisconsin - Madison 

37 

13 

13 

Vanderbilt University 

68 

9 

31 

Wake Forest University 

59 

11 

38 

Washington University - St. Louis 

73 

7 

33 

Yale University 

77 

7 

50 


管理报告 

1. 对这些数据作出数值和图示概述。 

2. 对于给定的小于20人的班级的比例，利用回归分析求出能预测捐赠比例的估计回归方程。 

3. 给于给定的学生比率，利用回归分析求出能预测捐赠比例的估计的回归方程。 

4. 这两个回归方程哪个提供了更好的拟合程度？得出这个估计的回归方程，进行残差分析， 
并讨论你的结论。 

5. 从你的分析中，得出你的结论和/或建议。 


附录 14. 1最小二乘法的推导 

正如本章所介绍，最小二乘法是通过确定&和仏的值，而使残差平方和最小化的方法。计 
算残差平方和的公式 如下： 

S(y.-ji ) 2 

代人 W = 6。+ 6成，得 

Z (yi - bo - b ] Xi ) 2 (14. 34) 

求该表达式的极小值。 

为了求公式 （14. 34) 的极小值，应对6。和 h 求偏导数，使其等于零。这样我们得到 

⑽ 2 = - 2 Z ( yr 6。 七 )=0 (14.35) 

輸一 jT blXiy = — 2^^-6 0 -6成）=0 (14.36) 

将公式 （14. 35) 除以2,并分别对每一项求和，得到 
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~ Zy .- + Z 6 o + XbiXi = 0 


将移到等号的右边并注意2：6。=劝。，得到 

nbo + ( Z^»)6i = Z/i 

对公式 （14. 36) 作类似的代数化简为 

( Xxi)bo + ( XxJ)b\ = Xxiyi 
公式 （14. 37) 和 （14. 38) 是正态方程组。从公式 （14.37) 中求出6 0 为 

n n 

将 （14.39) 代入公式 （14.38) 中的6 0 得 

z ^_ ix^ 6i + (z；ci2)6i = z 

n n 

整理公式 （14.40), 得 

,_ Z^iT.- - ( XxiXri)/n _ Z(^~^)(r.~r) 

1 Xxf - ( Xxi) 2 /n X(xi-x ) 2 

因为 7 = Zy /凡 并且元 = Zx /几， 公式 （14. 39) 可写为 

6o = y — b{x 

公式 （14. 41) 和公式 （14.42) 就是我们在本章中用来计算估计回归方程系数的公式 （14. 6) 和公式 
(14.7 )o 


附录 14. 2相关系数的显著性检验 

利用样本相关系数我们检验关于总体相关系数的假设 

* Pxy ~ 0 
H a : pxy 7 ^ 0 

来判断％和 y 之间是否存在一个显著的线性关系。如果被执拒绝，则得出总体相关系数不为 
零，两个变量之间的线性关系显著的结论。显著性检验 如下： 

^利用相关系数进行显著牲裣验 

Hq ： p X y = 0 
Ha : pxy 7 ^ 0 


(14.37) 

(14. 38) 

(14.39) 

(14.40) 

(14.41) 

(14.42) 
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裣验统计屋 

In -2 

卜〜々 1 - 4 

(14.43) 

拒绝规则 

如果 M / 2 或 t > t a /2, 则拒绝 // o 。 


式中，~ /2 是基于自由度为 

71 - 2 的£分布。 



在 14.4 节中，我们已经求出一个容量为 /i = 10 的学生人数和季度销售收入的样本相关系数 


~ = 0.950 1。检验的统计量是 


…,^^ = 0•9 5 0 1 士 U ■ oU2 - = 8.61 

从附录 B 的表2中，查得 a = 0. 01,自由度 f 为 71-2 = 10 - 2 = 8 的分布的双侧分位数为 to . 005 = 
3.355。因为8.61> 3.355, 故拒绝仇，得出在显著性水平 0. 01下，总体相关系数显著不为 
零。从而，这一结论提供了充分的统计证据表明学生人数和季度销售收入之间存在一个显著的线 
性关系。 

注意，利用统计检验量得出的显著关系的结论与 14.5 节中利用 Armand 的例子估计回归方程 
: P = 60 + 5 x 进行检验得出的结论一样。回归分析得出和之间存在显著关系的结论，并且得到一个 
说明变量之间的关系的方程。由于大多数分析家是利用现代的计算机软件包去完成回归分析，因 
此利用相关系数进行显著性检验是没必要的。 


附录 14. 3 用 Minitab 进行回归分析 



CD 光盘数据 


Armand’s 


在 14.7 节中我们讨论了回归分析的计算机解法，并以 Arniand 比萨饼连锁店问题 
的 Minitab 输出结果为例。在这个附录中，我们介绍了 Minitab 计算机解所需要的步 
骤。首先，将数据输入 Minitab 的工作表。学生人数的数据被输入到 C 1 列，季度销售 
收入的数据被输入到 C 2。 输入变量名 Pop 和 Sales 作为列的标题。这样，我们就可以 
根据所使用的变量名 Pop 和 Sales 或者列 C 1 和 C 2 去査询数据。以下步骤介绍了如何 


使用 Minitab 进行回归分析，见图 14. 10。 


步骤 1 . 选择 Stat 下拉菜单； 

步骤 2 . 选择 Regression 下拉菜单； 
步骤 3. 选择 Regression ； 

步骤4 .当 Regression 对话框出现后: 
在 Response 框中输入 Sales ; 
在 Predictors 框中输入 Pop ; 
点击 OK 。 
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Minitab 回归对话框可以通过选择可选按钮获得想得到的结果。例如，为了得到以因变量$的 
预测值为横坐标，标准差为纵坐标的残差图，步骤4 为： 

步骤 4.当 Regression 对话框出现后： 

在 Response 框中输入 Sales ; 

在 Predictors 框中输入 Pop ; 

点击 Graphs 按钮； 

当 Regression - Graphs 对话框出现后： 

在 Residuals for Plots 下选择 Standardized ； 

在 Residual Plots 下选择 Residuals versus fits ; 

点击 OK ; 

当 Regression 对话框出现后： 

点击 OK 。 


附录 14. 4 用 Excel 进行回归分析 


在本附录中我们介绍了如何用 Excel 回归工具对 Armand 比萨饼连锁店案例进行回归分析。图 
14. 23给出了其步骤。将 Restaurant ， Population , Sales 键入工作表的 Al : Cl 为了区别这10个观 
察值，我们将数字1:10输入单元格 A 2: All 。 样本数据输入单元格 B 2 到 Cl 1。下面步骤是描述如 
何用 Excel 进行回归分析： 


步骤 1 . 选择下拉菜单 Tools ; 

步骤 2. 选择 Data Analysis ； 

步骤 3.从 Analysis Tools 中选择 Regression ； 

步骤 4. 点击 OK ; 

步骤 5•当 Regression 对话框出 现后： 

在 Input Y Range 框中键入 Cl : C 11 ; 

在 Input X Range 框中键入 Bl : B 11 ； 

选择 Labels ； 

选择 Confidence Level ; 

在 Confidence Level 框中键入99; 

选择 Output Range ； 

在 Output Range 框中键入 A 13 

(此时可输入任一个作为输出开始的左上角单元格的序 号）; 
点击 OK 。 


输出结果的第一部分为 Regression Statistics , 包含确定系数 ( R 2 ) 等汇总信息。输出结果的第二 
部分为 AN 0 VA 即方差表分析。输出结果的最后一部分没有标题，是估计回归系数和相关信息。我 
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们进行回归分析输出的信息在单元格 A 28： I 30 o 



图 14. 23 Armand 比萨饼连锁店问题的 Excel 扩展表方法 


回归方程输出结果的说明 

单元格 B 29 为估计回归线 y 的截距6 0 = 60,单元格 B 30 为估计回归线的斜率 6 i =5 0 为了识 
别这两个变量，单元格 A 29 标为 Intercept ,单元格 A 30 标为 Population 。 

在 14.5 节中我们得出 h 的估计标准 差为& = 0.580 3,注意单元格030值为0.580 3。028 
单元格的标签为 Standard Error , 表明 C 30 单元格的值为标准差或标准离差6,。回顾利用£检验显 
著性关系要求计算 t 统计量即为 t = bi / s bi 0 对于 Armand 数据，计算 t 值为 t = 5/0. 580 3 = 
8.62。 D 28 单元格的标签为 t Stat ,表明单元格 D 30 包含 f 检验统计量。 

在 14. 5节中我们介绍了在显著性水平 ct = 0. 01，自由度为 n - 2 = 10 - 2 = 8时， to . 005 = 
3.355。因为 t = S . 62>3.355,得出在显著性水平为 0. 01下，奸不等于0。也就是说，有充分的 
统计证据来得出学生人数和销售额之间存在显著关系。单元格 E 30 为与显著性检验相联系的 P - 
值。在单元格 E 30 中 Excel 提供了其科学记数符号。为了获得十进制表示方法，我们将小数点左 
移5位，得到值为0.000 025 5。因为 p - 值 =0.000 025 5< o ： = 0.01， 拒绝丑 。则得出学生人数和 
季度销售额之间存在显著关系。 

单元格 F28:I30 给出了 y 的截距和估计回归方程斜率的置信区间估计，另外 Excel 给出了置 
信度为 95% 的上限和下限。在前面的第 4 步中我们选择了 Confidence Level ,并在 Confidence Level 
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框中键人99。最后通过 Excel 回归工具提供了置信度为99%的置信区间的上下限。单元格 H 30 是 
的置信度为99%的区间估计为 3.05 到6,95。单元格 F 30 和 G 30 给出了 95%置信区间的上限和下 
限。因此，95%置信区间为 3. 66到 6. 34。 

ANOVA 输出结果的说明 


单元格 A22 : F 26 是方差计算分析的汇总。方差的三个来源为 Regression ， Residual 和 Total 0 
单元格 B 23 的#代表自由度，单元格 C 23 标签为 SS 表示平方和，单元格 D 23 标签为 MS , 表示 
均方 D 

在 14. 5节中我们利用平方误差或残差和除以自由度得出平方差均值，其值为的一个估计量 
o \ 单元格 D 25 中的值为191.25,表示 Arniand 回归输出的平方差均值，在 14.5 节中我们介绍 
了 F 检验来进行回归方程的显著性检验。单元格 F 24 值为 0.000 025 5,表示显著性 F 检验相联系 
的 P - 值。因为 /)- 值 =0.0000255 <a = 0.01， 则我们拒绝执，得出学生人数和季度销售额之间有 
显著关系。标签 Excel 是用来识别显著性 F 检验的值，见单元格 F 23 即 Significance F 0 


如果认为单元格 F 24 为 F 检验的观察值，则标签 Significance F 有更多的意义。 


回归统计输出结果的说明 

单元格 B 17 为确定系数，值为0.902 7,其相应的标签见 A 17 为 R Square 单元格 B 16 为确 
定系数的平方根，相应的样本相关系数为0.950 1，注意 Excel 用标签 Multiple R (单元格 A 16) 来识 
别此值。在单元格 A 19 中用标签 Standard Error 来识别单元格 B 19中的估计标准差的值，估计标准 
差的大小为13,8293。注意在 Excel 输出中，标签 Standard Error 出现在两个不同的位置，在回归 
统计的输出中，标签 Standard Error 表示 er 。 在估计回归方程中，标签 Standard Error 表示样本分布 
5,—— b x 的标准离差。 




多元回归 


统计 实例： CHAMPION 国际有限公司 
15. 1多元回归模型 

回归模型和回归方程 
多元估计回归方程 
15.2 最小二乘法 

示例： Butler 运输公司 
回归系数解释 
15.3 多元判定系数 
15.4 模型假设 
15.5 显著性检验 
F 检验 
t 检验 
多重共线性 

15.6 利用估计回归方程进行估计和预测 
15.7 定性自变量 

示例： Johnson 过滤水公司 
参数解释 

更为复杂的定性变量 • 

15.8 残差分析 

检测异常值 

按学生分布删除残差和异常值 
有影响的观测值 

利用库克距离测度识别有影响的观测值 
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CHAMPION 国际有限公司 * 

斯坦福，康涅狄格州 

Champion 国际有限公司是世界上最大的林业 
产品公司，它在美国拥有三百多万英亩的林业资 
源。该公司生产木料和复合板等建筑材料,还有诸 
如印刷和书写用的白纸制品，同时还生产比如做 
衬板和波纹容器用的棕色纸制品。为生产上述纸 
制品， Champion 的纸浆工厂将木屑和化学产品进 
行处理产出木质纸浆，然后利用这些纸浆在造纸 
厂里面生产出纸制品。 

在白纸制品的生产过程中，必须对纸浆进行 
漂白去污处理，在此处理过程中，关键性的漂白剂 
是次氯酸，因为它具有易燃性，所以通常在 Cham ¬ 
pion 的纸浆工厂设备里制造出来，然后再通过管道 
输送到纸浆厂的漂白塔中。为了改进 Champion 生 
产次氯酸的一个工艺环节，公司对工艺的控制过 
程和效率进行了一项研究，其中的一方面就是研 
究次氣酸的生产过程中化学制剂的添加比例。 

次氯酸的生产过程 如下： 将四种化学添加剂 
以一定的比例注入次氯酸发生器，该发生器产生 
的次氯酸气体流入一个吸收器，在吸收器里，冷却 
水吸收了次氣酸气体形成次氯酸溶液。然后，溶液 
被输送到造纸厂车间。这一控制过程的关键在于 
化学添加剂的比例，传统的做法是由富有经验的 
操作员来确定，然而这种做法会导致由于操作员 
失误而引起的失控。因此，工厂里的化学工程师需 
要开发一套控制程式，每种化学制剂均对应一个 
程式，以使操作员来确定比例。 


* 作者感谢 Champion 国际有限公司的 Marian Williams 
和 Bill Griggs 提供这一统计实例。 



利用多元回归分析， Champion 国际公司为他们的纸制品开 
发了更为先进的漂白工艺 。④ Lester Lefkowitz/The Stock 
Market. 


利用多元回!) 3 分析， Champion 的统计分析师可以 
为生产过程中所使用的化学制剂各建立一个多元回归 
分析估值方程。每一个程式均将次氯酸的生产与化学 
添加剂的数量和浓度联系起来，这四个程式的结果被 
编入每个工厂的计算机上。在新系统中，操作员只需将 
次氯酸容液的浓度和预计的生产率输入，计算机软件 
就会计算出要获得这一产出的化学添加剂量。由于操 
作员已经使用这一控制程式，次氯酸发生器的生产效 
率提高了，同时，溶液的浓度取值于允许范围内的次数 
也显著增加。 

Champion 公司应用了多元回归分析来建立了它 
的控制程式。在本章中，我们将讨论诸如 Minitab 之类 
的统计计算软件包是怎样应用于上述问题的，第14章 
中介绍的大部分简单线性回归概念都可以扩展到多元 
线性回归中来。 
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在第14章中，我们论述了简单线性回归问题以及它在建立描述两个变量之间关系的方程中 
的应用。让我们回忆一下，由回归方程预测或者解释的变量称之为因变量，用来预测或者解释因 
变量的变量称为自变量。在本章中，我们通过分析牵涉到两个或者更多自变量的情形来继续对回 
归分析进行研究，该主题领域即我们所说的多元回归分析 (multiple regression analysis ) 0 它使得我 
们可以考虑更多的因素，因而可以得到比简单线性回归更好的估计值。 


15.1 多元回归模型 

多元回归分析研究的是因变量 y 怎样依赖于两个或者更多的自变量的。在通常的情况下，我 
们将使用 p 来表示自变量个数。 


回归模型和回归方程 

我们在上一章中介绍的回归模型和回归方程的概念在本章多元回归中也是适用的。描述因变 
量 y 是怎样依赖于自变量 A ，幻，…，％和误差项的方程称为多元回归模型 （multiple regression 
model ) o 我们先假设多元回归模型有以下 形式： 


多元回归模型 


;y = /3o + /3ixi + /& ^2 + • * * + PpXp + e 


(15.1) 


在多兀回归模型中，你， / J ， 择，…，你是参数 ， e (希腊字母 epsilon ) 是随机变量。仔细 
观察这个模型就会发现， y 是％1，奶， …， 知（你++择幻+…+ Aa 部分）的线性函数加上 
误差部分 e 。 误差部分说明了 y 里面所不能被/>个自变量之间的线性关系解释的差异。 

在 15. 4节中我们将论述多元回归模型和 e 的假设。其中的一个假设就是 e 的均值或期望值为 
零。这一假设的推论是： y 的平均值或期望值 ，以以 y ) 表示，等于 j 3 o + /3 i xi + pixi +…+ /3^ P 。 描述 y 
的平均值是如何依赖于； ti , 处,…，知的方程即称为多元回归方程 (multiple regression equation )。 


多元回 0 方程 




E ( y ) =你+ /3 i；ci +锋於+…+体〜 

(15.2) 


多元估计回归方程 

如果 A ， 办，烽…，啟值已知，且给定了々，奶 ，…， &的值，则公式 （15.2) 可以用于计算 
y 的平均值。不幸的是，这些参数值通常是未知的，必须通过样本数据去估计。我们可以利用一 
个简单随机样本去计算样本统计值6。，6,，6 2 ,…，作为 A ), A , 泽，…，戽的点估计。这些样 
本统计值提供了下述的多元估计回归方程 (estimated multiple regression equation ) : 





商务与经济统计 


多元估计回归方程 

y = bo + bi xi + bi xi + …+ bpX P (15. 3) 

式中， bo ， bi ， bi ， …， bp 是 ）3 o , Pi , /3 z ， …， 爲的估 计值， f 是因变量的估计值。 


多元估计回归的步骤如图 15. 1所示 


多元回归模型 

( t ： 1 . * 1 

y = j 0 o + pi x i + ^2 xi + • - • ppx p + e 

< * ■ ■ 

::、:姜元回归方程 v 

• •: •' - •• ■ • 

E(y) = + J32X2 + "‘fipXp 



b — bi , bi ，”， ， b p 给 出 了 
h ft 的估计值 




y = bo + b\x\ + biX2 + + bpX P , 



图 15.1 多元估计回归的步聚 


在简单线性回归情况下， 心和匕 是用于估计未知参数 /3 o , A 的样本统计量；同 
理，在多元回归情形下，‘ 6, ， 匕, …， ~是用于估计未知参数奸， A , … ，啟的 样本统 
计量。 



15. 2最小二乘法 

在第14章，我们利用最小二乘法 (least squares method ) 建立了估计回归方程，该方程以最大 
可能的接近程度描述了因变量和自变量之间的线性关系。同样，我们可以利用该方法去建立多元 
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估计回归方程。最小二乘法的准则如下 所述: 


最小二乘法 

minZ ( Ji - Ji ) 2 

(15.4) 

式中 Ji 

-因变量的第〖次观 测值； 


r* 

一因变 量的第纟次估计值。 



因变量的估计值可以利用多元估计回归方程 


y = bo + b\ xi + 62X2 + …+ bpXp 

来计算。 

如公式 （15.4) 所示，最小二乘法利用样本数据，求得残差（基因变量的观测值 y , •与因变量 I 
的估计值之间的离差）的最小平方和，从而得出6。，&，6 2 ,…，~的值。 

在第14章里，为了估计简单线性回归方程6^，我们介绍了计算最小二乘估计值6 0 
和仏的公式，对于比较小的数集，我们通过手算就能利用这些公式计算岀6。和&的数值。但 
是，在多元回归中计算回归系数、心，6 2 ,…， 6 P 的公式涉及到矩阵知识，这已经超出本书论述 
的范围，因此，在介绍多元回归时，我们将集中讨论计算机软件包是怎样被用来得到估计回归方 
程和其他信息的，重点将放在计算机输出结果的解释上而不是怎么进行多元回归的计算。 

示例： Butler 运输公司 

作为多元回归分析的一个示例，我们可以参考 Butler 运输公司所面临的一个问题，该公司是 
一个位于南加利福尼亚的独立运输公司。 Butl er & 司的主营业务地域为本地，为了建立更好的工 
作日期表，经理们计划为他们的驾驶员估计日常行驶时间。 

一幵始经理们认为日常驾驶时间应该与日常运输的里程数紧密相关。10份行驶记录的简单随 
机样本提供了表 15. 1的数据和图 15.2 的散点图。经过对散点图的分析，经理们 假设 ： r = A ) + 
尽^ + e 可以被用于描述总驾驶时间和里程数之间的关系，为了估计参数戌和译，我们应用最小 
二乘法来建立估计的回归 方程： 


y— 6 o + b\x\ (15. 5) 

在图 15.3 中，我们展示了对表 15. 1中的数据进行简单线性回归分析的 Minitab 计算机输出结果， 
回归估计方程如下： 


卜 1.27 +0. 067 8 心 





在 Minitab 输出结果中，变量名称 Miles (英里）和 Time (时间）作为工作单上的表头输 
那么，欠1=英里，欠2 =运送次数，7=时间。 


行驶里程 

Butler 运输公司数据预处理的散点图 
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良 15. 1 Butler 运输公司初始数据 



运送次数 

心=行驶里程 

少=行驶时间（小时) 


1 

100 

9.3 


2 

50 

4.8 

CD 光盘数据 

3 

100 

8.9 
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The regression equation is 


Time = 1.27 

+ 0.0678 

Miles 




Predictor 

Coef 

Stidev 

t-ratio 

P 


Constant 

1.274 

1.401 

0.91 

0.390 


Miles 

0.06783 

0.01706 

3.98 

0.004 


s = X.002 

R_sq 

=66.4% 

R-sq(adj)= 

= 62.2% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

15.871 

15.871 

15.81 

0.004 

Error 

8 

8.029 

1.004 

9 


Total 

9 

23.900 





图 15.3 一个自变量的 Butler 运输公司的 Minitab 输出结果 


在 Minitab 输出结果中，变量名称英里和时间作为每列的名称，于是& = 英里，& = 
时间。 

在 0.05 的显著性水平下， F 统计量值为 15.81, 它所对应的 p _ 值为0.004,这表明自变量 
与因变量之间的关系是显著的。这也就是说，因为 />- 值比 a =0.05 要小，所以我们可以拒绝假 
设 i / Q : A =0。 注意，通过 6 = 3.98 以及与它相关的 p - 值为0.004,我们也可以得出这一结论。 
由此可知，日常行驶时间与行驶里程显著相关，行驶时间越长，行驶里程也就越长，由于判定系 
数（以百分数表示） R- S q = 66. 4%，我们可以看到行驶时间 66. 4%的变异可以由行驶里程的线性影 
响来解释。这一结果相当不错，但是管理者或许会考虑增加第二个自变量来解释因变量剩余的变异。 

在确定另一个自变量时，管理者认为行驶时间也受到运送货物的次数的影响，表 15.2 显示了 
Butler 公司添加了运输次数以后的数据，图 15.4 显示的是以行驶里程（^)和运送次数 U 2 ) 作为自 


表 15. 2 以行驶里程和运送次数为自变置的 Butler 运输公司数据 



CD 光盘数据 
Butler 


运送次数 

X,= :行驶里 
程 

X 2 = 运送次数 

>=行驶时间 
(小时） 

1 

100 

4 

9.3 

2 

50 

3 

4.8 

3 

100 

4 

8.9 

4 

100 

2 

6.5 

5 

50 

2 

4.2 

6 

80 

2 

6.2 

7 

75 

3 

7.4 

8 

65 

4 

6.0 

9 

90 

3 

7.6 

10 

90 

2 

6. 1 
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The regression equation is 

Time = - 0.869 + 0.0611 Miles + 0.923 Deliv 


Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

<0.8687 

0.9515 

-0.91 

0.392 


Miles 

0.061135 0.009888 6.18 

0.000 


Deliv 

0.9234 

0.2211 

4.18 

0.004 


s = 0.5731 

R-sq 

= 90.4% 

R-sq(adj)= 

87.6% 


Analysis of 

Variance 





SOURCE 

DF 

ss 

MS 

F 

P 

Regression 

2 

21.601 

10.800 

32.88 

0.000 

Error 

7 

2.299 

0.328 



Total 

9 

23.900 





图 15.4 设置两个自变量的 Butler 运输公司 Minitob 计算机输出结果 


变量的 Minkab 计算机解决方案，估计的回归方程 如下： 

y = -0. 869 + 0. 061 1 灼 +0.923 奶 (15.6) 

在下一章中，我们将讨论利用多元判定系数来判断估计回归方程是否提供了一个好的拟合，在此 
之前，让我们更仔细的检测一下公式 （15. 6) 中的 h =0.0611 和6 2 =0.923 这两个值。 


在 Minitab 输出结果中，变量名称 Miles (英里）、 Deliv (运送)和 Time (时间）作为工作 
单上的表头输入，那么，心=英里，奶=运送次数 ， y = 行驶时间。 


回归系数解释 

我们的检测应该是着眼于单自变量的估计回归方程和把运送次数作为第二自变量的方程之间 
的关系来进行，在这两种情形下， h 的值是不同的。简单线性回归情形下， h 被认为是当自变量 
改变一个单位时因变量改变的数值，多元回归情形下，这一解释必须做些修改，也就是说，多元 
回归情形下，我们对每一个回归系数解释 如下： 当所有其他自变量均保持不变时，&是因变量 y 
对应于自变量％改变一个单位时所作的改变的估计值。在包含两个自变量的 Butler 公司的事例 
中，6, =0.0611。因此，当运送货物的次数保持不变时，行驶里程每增加一英里，行驶时间所增 
加的估计值是 0.061 1小时，与此类似，由于匕 = 0.923, 所以当运送货物行驶里程保持不变时， 
运输次数每增加一次时，与此相对应的行驶时间期望值的估计增加值为 0. 923小时。 
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请学生们注意，涉及本节和后面章节数据的练习均要求利用计算机软件包来完成 

方法 

1. 如下所示的估计回归方程模型包含两个自变量和10个观 测值： 


y = 29. 127 0 + 0. 590 6 Xl +0. 498 0 奶 


a . 解释该估计回归方程中的 h 和6 2 。 


b . 当％ = 180和幻= 310时，估计 y 值。 

2. 对于因变量 y 和两个自变量^和； c 2 , 有如下数据: 


自测题 



Exer2 


XI 

Xi 

y 

30 

12 

94 

47 

10 

108 

25 

17 

112 

51 

16 

178 

40 

5 

94 

51 

19 

175 

74 

7 

170 

36 

12 

117 

59 

13 

142 

76 

16 

211 


a . 利用这些数据，建立: k 关于；^的估计回归方程，如果;^=45，求： k 的估计值。 

b . 利用这些数据，建立 y 关于； c 2 的估计回归方程，如果^ = 15,求 y 的估计值。 

c . 利用这些数据，建立 y 关于心和^ 2 的估计回归方程，如果 a = 45， X2 = 15 , 求 ； x 
的估计值。 


3.该回归分析包含30个观测值，有如下的估计 方程： 

y = 17. 6 + 3. 8 a：i - 2 , 3 X 2 +1 * 6 X3 2. 1 xa 

a . 解释该方程中的 h ， 6 2 , 6 3 , 6 4 。 

b . 当 ； Cl = 10, A ；2 = 5, ； C 3 = 1， = 2 时估计 y 值。 
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应用 


4. 一家制鞋厂建立了销售额和库存投入及广告投入的估计回归 方程: 


y = 25 + 10a；i + 8 夂 2 


式中欠1 =库存投入（千美元）； 

欠2=广告投入（千美元）； 
y = 销售额（千美元）。 

a . 当库存投入^为15000美元以及广告投入为10000美元时，估计销售额。 

b . 解释该估计回归方程中的6,, 6 2 。 


5. Showtime Movie Theaters 公司的老板打算将每周总菅业收入作为广告支出的一个函数来 

估计，8周的历史数据组成如下的 样本： 



CD 光盘数据 
Showtime 


每周总收入 

电视广告费 

报刊广告费 

千美元 

千美元 

千美元 

96 

5.0 

1.5 

90 

2.0 

2.0 

95 

4.0 

1.5 

92 

2.5 

2.5 

95 

3.0 

3.3 

94 

3.5 

2.3 

94 

2.5 

4.2 

94 

3.0 

2.5 


a . 将电视广告费作为自变量，建立估计回归方程。 

b . 将电视广告费和报刊广告费作为自变量，建立估计回归方程。 

c . 在 （ a ) 和 （ b ) 中建立的估计回归方程中，电视广告费的系数相同吗？解释每种情况的系 
数。 

土如果电视广告费为3500美元，报刊广告费为1 800美元，试估计该周总收入。 


6. 下表显示了 16种赛车和 GT 车的马力、自重、启动加速至1/4英里时的速度 



CD 光盘数据 


Autol 


Track Sports & GT Cars ) : 


赛车和 GT 车 

自重 ( 磅 ) 

Acura Integra Type R 

2 577 

Acura NSX-T 

3 066 

BMW Z3 2. 8 

2 844 

Chevrolet Camaro Z28 

3 439 

Chevrolet Corvette Convertible 

3 246 


马力 

启动加速至 1/4 英里时的速 
度 ( 英里 / 小时） 

195 

90.7 

290 

108.0 

189 

93.2 

305 

103.2 

345 

102. 1 
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CD 光盘数据 


Mower 


(续表） 

启动加速至 1/4 英里时的速度 


赛车和 GT 车 

自重 ( 磅） 

马力 

( 英里 / 小时 ) 

Dodge Viper RT/10 

3 319 

450 

116.2 

Ford Mustang GT 

3 227 

225 

91.7 

Honda Prelude Type SH 

3 042 

195 

89, 7 

Mercedes-Benz CLK320 

3 240 

215 

93.0 

Mercedes-Benz SLK230 

3 025 

185 

92.3 

Mitsubishi 3000GT VR-4 

3 737 

320 

99.0 

Nissan 240SX SE 

2 862 

155 

84, 6 

Pontiac Firebird Trans Am 

3 455 

305 

103.2 

Porsche Boxster 

2 822 

201 

93.2 

Toyota Supra Turbo 

3 505 

320 

105.0 

Volvo C70 

3 285 

236 

97.0 


a . 以自重作为自变量，启动加速至1/4英里时的速度 (Speedat l /4 mile ) 作为因变量， 
求估计回归方程。 

b . 以自重和马力作为自变量，启动加速至1/4英里时的速度作为因变量，求估计回归方程。 

c . 1999 Porsche 911 Carrera 款式的赛车在广告中宣称其自重2 910磅，引擎马力296, 
利用 （ b ) 中的结果预测该车启动加速至1/4英里时的速度。 


Heller 公司生产割草机和相关草坪设备，管理者认为割草机销量取决于割草机的价格 
和竞争对手的价格，令 

y = 销量(千台) 

& =竞争对手割草机价格(美元） 
xz = Heller 公司割草机价格(美元） 

Heller 公司的管理人员希望建立割草机的销售数量与 Heller 公司割草机价格和竞争对 
手割草机价格的估计回归方程，下表列出的是10个城市的价格 资料： 


竞争对手的价格 

Heller 的价格 

销售数置 

(jCi) 

(xi) 

(^) 

120 

100 

102 

140 

110 

100 

190 

90 

120 

130 

150 

77 

155 

210 

46 

175 

150 

93 

125 

250 

26 

145 

270 

69 

180 

300 

65 

150 

250 

85 


a 


在竞争厂商价格和 Heller 公司的价格已知的情况下，建立估计回归方程预测 Heller 
公司割草机的销售数量。 
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b . 解释该方程中的 h 和6 2 。 

c . 如果在某个城市， Heller 公司的割草机价格为160美元，竞争对手的割草机价格为 
170美元，试预测 Heller ■公司的销售数量。 


8 . 



CD 光盘教 银 ^ 


ForFunds 


下表给出了 20个国外基金的年回报率、安全系数 (0 表示最危险，10表示最安全)和年 


支出率 （ Mutual Funds ，March 2000) : 

安全系数 

年支出率 (％) 

年回报率 (％) 

Accessor Int’l Equity “Adv” 

7. 1 

1.59 

49 

.Aetna “I” International 

7.2 

1.35 

52 

Amer Ceoiury Int’l Discovery “Inv” 

6.8 

1.68 

89 

Columbia IntematfeK^l Stock 

7. 1 

1.56 

58 

Concert Inv “A” Infl Equity 

6.2 

2. 16 

131 

Dreyfus Fourders Int’l Equity “F” 

7.4 

1.80 

59 

Driehaus International Growth 

6.5 

1，88 

99 

Excelsior “Inst” Int’l Equity 

7.0 

0. 90 

53 

Julius Baer International Equity 

6.9 

1.79 

77 

Marshall International Stock “Y” 

7.2 

1.49 ； 

54 

MassMutual Int’l Equity “S” 

7. 1 

1.05 

57 

Morgan Grenfell Inti Sm Cap “Inst” 

7.7 

1.25 

61 

New England “A” Int’l Equity 

7.0 

1,83 

88 

Pilgrim Inti Small Cap “A” 

7.0 

1.94 

122 

Republic International Equity 

7.2 

1.09 

71 

Sit International Growth 

6.9 

1.50 

51 

Smith Barney “A” Int’l Equity 

7.0 

1.28 

60 

State St Research “S” Int’l Equity 

7. 1 

1.65 

50 

Strong International Stock 

6.5 

1.61 

93 

Vontobel International Equity 

7.0 

1.50 

47 


a . 利用这些数据，以年回报率为因变量，年支出率和安全系数为自变量，建立一个估 
计回归方程。 


b . 某公司安全系数为 7.5, 年支出率为2,试估计其年回报率。 

9. 两个专家提供了他们认为是美国最好的学区名单，资料包括每一个学区的班级平均学 



CD 光盘数据 


Schools 


生数，综合 SAT 分数，考入四年制大学的学生比例 


学区 

班级平均学生数 

综合 SAT 分数 

进入四年制大学百分比 （％) 

Blue Springs, MO 

25 

1 083 

74 

Garden City, NY 

18 

997 

77 

Indianapolis, IN 

30 

716 

40 

Newport Beach, CA 

26 

977 

51 

Novi, MI 

20 

980 

53 

Piedmont，CA 

28 

1 042 

75 

Pittsburg, PA 

21 

983 

66 

Scarsdale, NY 

20 

1 110 

87 


10 . 



CD 光盘数据 


CarRent 
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(续表) 


学区 

班级平均学生数 

综合 SAT 分数 

进入四年制大学百分比 (％) 

Wayne, PA 

22 

1 040 

85 

Weston, MA 

21 

1 031 

89 

Farmingdale, NY 

22 

947 

81 

Mamaroneck r NY 

20 

1 000 

砂 

Mayfield, OH 

24 

1 003 

48 

Morristown, NJ 

22 

972 

64 

New Rochelle, NY 

23 

1 039 

55 

Newtown Square，PA 

17 

963 

79 

Omaha, NE 

23 

1 059 

81 

Shaker Heights，OH 

23 

940 

82 


a . 利用这些数据，以班级平均学生数和综合 SAT 分数为自变量，以进入四年制大学百 
分比为因变量，建立估计回归方程。 

b . 如果班级平均学生数为20,综合 SAT 分数为1 000,试估计进入四年制大学的学生 
百分比。 

汽车租赁新闻报提供了如下 数据： 15家汽车租赁公司的运营汽车数量（千辆），运营场 
地数，租金收入（百万美元 ）（ Wall Street Journal Almanac 1998) 。 


公司 

汽车数 

场地 

收入 

Alamo 

130 

171 

1 180 

Avis 

190 

1 130 

1 500 

Budget 

126 

1 052 

1 500 

Dollar 

63.5 

450 

560 

Enterprise 

315, 1 

2 636 

2 060 

FRCS(Ford) 

55. 25 

1 784 

312. 5 

Hertz 

250 

1 200 

2 400 

National 

135 

935 

1 200 

Payless 

15 

100 

47 

PROP (Chrysler) 

27 

1 500 

160 

Rent-A-Wreck 

10.9 

460 

78 

Snappy 

15.5 

259 

85 

Thrifty 

34 

480 

340 

U-Save 

13.5 

500 

95 

Value 

18 

45 

150. 1 


a . 建立估计回归方程，在运营车辆数已知的情况下，预测租金收入。 

b . 解释 (’ a ) 中估计回归方程的斜率。 

c . 建立估计回归方程，在运营车辆数和场地数已知的情况下可以用来预测租金收入。 
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15.3 多元判定系数 


在简单线性回归情况下，我们已经说明总平方和可以被分成两 部分： 回归平方和、误差平方 
和。同样，多元回归平方和也适用该情形。 


SST、SSR 和 SSE 之间的关系 



SST = SSR + SSE 

(15.7) 

式中 SST — 

一总平方和 = Z ( y ,- - y ) 2 ; 


SSR — 

一回归平方和 = Z (ji ~ y ) 2 ; 


SSE — 

_ 误差平方和 = Z (% _ $) 2 。 



因为这三个平方和的计算难度很大，我们依靠计算机软件包来得到这些数值。对于两个自变 


量的 Butler 运输公司案例，图 15.4 的 Minitab 计算机输出结果里的方差分析部分显示了它的这三 
个数值 ， SST = 23. 900, SSR = 21. 601, SSE = 2. 299 0 当只有行驶里程数一个自变量时，图 15. 3的 
Minitab 计算机输出结果显示了 SST = 23. 900, SSR = 15. 871, SSE = 8. 029 0 SST 值在两种情况下是一 
样的，因为它并不依赖于:?。但是，在增加第二个自变量（运送次数）时， SSR 增加了且 SSE 减少 
了。这表明估计多元回归方程对所观测的数据给出了一个更好的拟合。 

在第14章中，我们使用了判定系数 F = SSR / SST 来测度估计回归方程的拟合度，同样的概 
念适用于多元回归情形。术语 多元判定系数 (multiple coefficient of determination ) 代表着我们对估计 
多元回归方程拟合优度的测度，多元判定系数以/? 2 表示，其计算公式如下： 

多元判定系数 

/? 2 =-§| (15.8) 


增加自变量导致预测误差值变小，因而也减小了误差平方和 SSE 。 由于 SSR = 
SST - SSE ， 当 SSE 变小时， SSR 就变大，因此丑 2 = SSR / SST 变大。 

多元判定系数可理解为因变量 y 的变异程度， y 能被估计多元回归方程所解释，因此，将此变异 
程度乘以100,即可以理解为因变量 y 中的变异性能被估计多元回归方程解释的百分比。 

对于带两个自变量的 Bulter 运输公司的例子，其中 SSR =21.601 ，SST = 23.900, 可得 


R 2 = 


21.601 
23. 900 


= 0. 904 


因此，行驶时间： r 中90.4%的变异性可以被行驶里程数和运送次数作自变量的估计多元回归 
方程解释，在图 15.4 中，我们看到多元回归系数由 Minitab 的输出结果给出，表示为： R-sq = 
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90. 4%。 

图 15.3 显示了在仅有一个自变量——行驶里程幻的估计多元回归方程里面， R _ S q 的值为 
66. 4% ,因此，当运送货物的次数作为第二个自变量被添加时，行驶时间 y 中的变异性能被估计 
多元回归方程解释的百分比由 66. 4%增加到90.4%。通常说来，记的值总是随着新的变量进人 
模型而增加的。 

因为增加自变量的个数将影响到估计回归方程所解释的变异性，为了避免高估这种影响，很 
多统计分析师采用自变量的个数来修正浐的值。观测值的数目用^来表示，自变量的数目用 
来表示， 修正多元判定系数 (adjusted multiple coefficient of determination ) 的计算公式如下： 


修 E 多元判定系数 




心- (1- 捫/二 

(15.9) 


如果模型增加一个自变量，即使所增加的自变量在统计上并不显著，妒也会变大。 
修正多元判定系数补偿了模型中自变量个数的影响。 

jam am a ipmui t\ if <igjamnapMi%ini on. m ■ 圊 

对于 Butler 运输公司的例子， n = 10, p =2, 我们可以得到 

in-1 

祀 =1 -(1 - 0 . 904 ) T ^~ o , = 0.88 

1U - z - 1 

于是，在对这两个自变量进行修正后，我们得到修正后的多元判定系数0.88。这个数值在图 
15. 4中由 Minitab 输出结果表示为 R - sq ( adj ) =87. 6%,这和我们所计算的数值不一样，那是因为 
在计算中对把作了四舍五人的处理。 



如果圮的值比较小，且模型包含的自变 这种情况下， Minitab 将把修正多元判定系数的 
量数目较多，修正多元判定系数会呈负值，在 值取为0。 



方法 

11. 在练习1中，根据10次观测值有如下的估计回归 方程: 


y = 29. 127 0 + 0. 590 6 a +0. 498 0奶 
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式中， SST = 6 724. 125, SSR = 6 216, 375。 

a . 计算 SSE 。 b . 计算 /? 2 。 c . 计算 祀。 d . 评论拟合度。 


12 . 


« 


自测题 


在练习2中，对因变量 y 和两个自变量^及； C 2 有10个观测值，根据这些数据，我们 
计算出 SST = 15 182,9, SSR = 14 052. 2 0 
a . 计算 /? 2 。 b . 计算炤。 

c . 估计回归方程是否解释了数据中的大部分变异性，请解释。 


13. 在练习 3 中，根据 30 个观测值有如下的估计回归 方程: 


j = 17. 6 + 3. ^ x \ -2. 3 a ；2 + 7. 6^3 +2.1 X 4 

式中， SST = 1 805, SSR = 1 760。 

a . 计算 /? 2 。 b . 计算 / K 。 c . 评论拟合度。 


应用 


14. 在练习 4 中给出了销售收入关于存货支出与广告支出的估计回归 方程: 


y = 25 + 10^[ + 8^2 

用来建立模型的数据来自于对 10 家鞋店的调查，式中， SST = 16 000 , SSR = 12 000 o 

a . 在给定的估计回归方程条件下，计算/? 2 。 

b . 计算圮。 

c . . 估计回归方程是否解释了数据中的大部分变异性，请解释。 


15. 



自测题 


在练习 5中 ， Showtime Movie Theaters 公司的老板利用多元回归分析来预测总收入 
( y )， 自变量是电视广告费用 （^) 和报刊广告费用 （处)， 估计回归方程如下： 

y = 83. 2+2. 29^1 + 1 • 30奶 


计算机输出结果给定： SST = 25. 5, SSR =23. 435 0 

a . 计算并解释 记，祀。 

b . 当只有电视广告费用这一个自变量时， 记=0.653,圮= 0.595, 你是否愿意接受该多 
元回归结果？为什么？ 


16. 在练习 6 中，给出了 16 种型号的赛车和 GT 车的自重、马力和启动加速至 1/4 英里时的速度 
( 1998 Road & Track Sports & GT Cars ) 。 

a . 如果估计多元回归方程仅有自重这一个自变量，用它来预测启动加速至 1/4 英里时的速 
度，这样做是否提供了一个优良的拟合度？为什么？ 

b . 论述利用自重和马力这两个自变量来预测启动加速至 1/4 英里时的速度的好处。 


17 .在练习 9 中，我们建立了估计多元回归方程，利用班级平均学生数和综合 SAT 成绩来预测进 
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入四年制大学的学生比例。 

a . 计算并解释/? 2 ,祀。 

b . 估计回归方程是否提供了一个优良拟合？请解释。 

18. 参考练习10，它提供了 15家汽车出租公司投入运营的车辆数（千辆），营业场地的数量，租金 
收入（百万美元）等资料 （The Wall Street Journal Almanac 1998)。 

a . 在练习 10 的 （ c ) 中，我们已经建立了出租收入关于投入运营的汽车数量以及营业场地的数 
量的估计多元回归方程，试求其中的炉，苽。 

b . 估计回归方程是否对数据提供了一个优良拟合？请解释。 


15.4 模型假设 

在 15.1 节中，我们引人了以下形式的多元回归 模型： 


多元回归模型 

y = /So + + 你处 + … + ^ pX p + e 

(15.10) 

在多元回归模型中的误差项 i 

: 的假定类似于简单线性回归模型中的假定。 



多元回归模型 y = /3 b + A a +…+命/> + e 屯误差顶 e 的假定 


1 . 误差项 e 是一个随机变量，其均值或者期望值为0,即 E ( z )=0 o 
这意 味着： 对于 A , &，…， 七的给 定值，： K 的期望值或均值取 决于： 

E [ y ) = po + /3 ix \ + /3 zxi + …+ ppx p (15.11) 

公式 （15. 11) 即我们在 15. 1 节中介绍的多元回归方程式，在这个方程式中， £( y ) 表示对 
于给定的幻，…，知值，所有可能出现的 y 的期望值或者平均值。 

2 . 对所有的自变量值％处，…，七， e 的方差，以 cr 2 表示，均保持不变。 

这意味着：对％1,处,…，知的所有值， y 的方差均等于（7 2 。 

3. e 的值是相互独立的。 

这意味着： 自变量的一组特定值所对应的误差项与自变量的任意一组其他值所对应的误 
差项是不相关的。 

4. 误差项 e 是一个呈正态分布的随机变量，它反映了 y 值和由 + 奶 H 

所决定的 y 的期望值之间的离差。 

这意味着： 对于给定的％1，％2,…，七值，由于 i &), A , …，均为常量，所以因变量 y 也 
呈正态分布。 


为了对公式 （15. 11) 式所给出的关系形式有更多的了解，我们可以考虑分析一下下面带有两 
个自变量的多元回归 方程： 
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E(y) = )3o + @ixi + 氏 X 2 

该方程的图形是三维空间的一个平面，如图 15.5 所示，注意，当 a = 心=奶*时， e 是 y 的 
实际值和期望值 £：( y ) 之间的差。 


当 JS(y) =/ 3 o + / 3 lXi +/ 32 X 2 时的期望值 



当 A = XI •且 X 2 =处•时的7值 


当且％2=12•时的 E ( y ) 



X\ 


当 a ； r ，☆ = i 2 •时的相应点 


图 15.5 带两个自变置的多元回归方程的图形 

在回归分 析中， 我们经常用 术语响应变量 来替代 术语因变量， 除此之外， 由 于多元回归方 
程所生成的图形是一个平面或者曲面，因此它的图形被称 为响应曲面。 


15.5 显著性检验 

在本节我们将阐述如何对多元回归关系进行显著性检验。在简单线性回归情形中，我们使 
用的是 t 检验和 F 检验，对于简单线性回归情形，两种检验所提供的结果是相同的 ，即： 如果 
零假设遭到拒绝，则我们认为 A # o 。 在多元回归情形中， f 检验和 F 检验的目的是不同的。 

1 . F 检验用于确定因变量和所有自变量之间是否存在一种显著性的关系，我们倾向于把 F 
检验称为 总体的显著性检验。 

2 . 如果 F 检验显示了总体的显著相关，则 t 检验用于确定每一个单独的自变量是否显著， 
楱型中的每一个单独的自变量均进行 t 检验，我们倾向于将每一个这样的 t 检验称为单 

独显著性检验。 

在接下来的内容中，我们将解释 F 检验和 i 检验，并将它们应用于 Butler 运输公司的示例。 


F 检验 

15. 4节中所定义的多元回归模 型是: 
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y = + pi x\ + /?2 ^2 + • * * + ppXp + e 

F 检验假设与多元回归模型中的参数是相 关的： 


Ho ： pi = ^2 =…= p P = Q 

/ fa ： 参数中至少有一个不等于 0 


如果/ / Q 假设被拒绝，我们有充分的统计证据表明至少有一个参数不为0,而且，因变量 y 和自 
变量系列々，&,•••，知之间的总体关系是显著的。相反，如果/ / o 假设没有被拒绝，我们将缺乏 
足够的证据认为它们之间存在一个显著的关系。 

在描述 F 检验步骤之前，我们有必要回顾一下均方的概念，均方是平方之和除以它所对应 
的自由度。在多元回归情形中，总平方和有 n -1 个自由度，回归平方和 （ SSR ) 有 p 个自由度.， 
误差平方和有个自由度，因此，回归所产生的均方 ( MSR ) 是 SSR / p , 误差所产生的均方 
( MSE ) 是 SSE / U - p - 1)。 


和 


MSR =— (15.12) 

P 

MSE = SSE , (15.13) 

n ~p - 1 


在第 14 章中讨论过， MSE 提供了误差项 e 的方差 〆 的无偏估计量，如果假设//。:奸=达=… 
=恳=0成立， MSR 也会提供 〆 的一个无偏估计量，并且， MSR/MSE 的值将会接近1。相反， 
如果假设乐被拒绝， MSR 将会过高估计沪，此时 MSR/MSE 的值将会变大。为了确定 MSR / 


MSE 的值在多大的时候会拒绝//。，我们可以利用这样一个 事实： 如果/成立，并且多元回归模 
型的假定均有效，那么 MSR / MSE 的抽样分布是一个 F 分布，其分子自由度为 p ， 分母自由度 
为 n — p — 1 o 对于多兀回归情形， F 检验的主要步骤如下： 


总体显著牲 F 检验 


Ho ： & =氏二…= /3 p = Q 
H a : 至少有一个参数不等于0 

裣验统计屋 


MSR 
= MSE 


拒绝现则 

利用检验统 计量： .如果 F > F a ，则拒绝// 0; 

利用 p - 值：如果 p - 值 < ct ， 则拒绝 i / o 。 

式中， K 是基于分子自由度为/?、分母自由度为 n - p - 1的 F 分布 


(15.14) 


让我们将 F 检验应用于 Butler 运输公司的多元回归问题中来，它带有两个自变量，假设形式 


如下: 
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Ho ： P' = = 0 

i / a ： )8 l , 烽 至少有一个不等于 0 

图 15.6 是以行驶里程（^)和运送次数 U 2 ) 作为自变量的多元回归模型的 Minitab 计算机输出 
结果，在输出结果的方差分析部分，我们可以看到 MSR = 10.8, MSE = . 328。利用公式 （15. 4)，我 
们可以得到检验统计量 


F 


10. 8 
0.328 


= 32.9 


注意： Minitab 输出结果的 F 值为 32.88, 这与我们所计算出的数值不同，原因在于我们在计算过 
程中使用了 MSR 和 MSE 的四舍五入近似值。在显著性水平 o ：=0. 01下，从附录 B 表4中，我 
们可以查到分子自由度为2,分母自由度为7的上侧分位数仏.。,=9.55。根据 32. 9> 9. 55,我 
们可以拒绝并且我们可以得岀 结论： 在行驶时间 y 和两个自 变量： 行驶里程和运 
送次数之间存在显著相关关系。在方差分析表（图 15.6) 的最后一列里， p - 值为 0.000, 因为 
p - 值比 a =0.01 值要小，所以我们也可以根据这一点拒绝历 : /3 1= ：烽=0。 

正如前面所提到的，误差均方 MSE 提供了的方差沪的一个无偏估计量。参照图15.6,我们 
可以看到沪的估计量是 MSE = 0.328。 MSE 的平方根是误差项的标准差的估计。正如 14.5 节中 


The regression equation is 

Time = -0.869 + 0.0611 Miles + 0.923 Deliv 


Predictor 

Coef 


St dev 


t-ratio 

P 

Constant 

- 0.8687 


0.9515 


-0.91 

0.392 

Miles 

0.061135 

0. 

009888 


6.18 

0.000 

Deliv 

0.9234 


0.2211 


4.18 

0.004 

s = 0.5731 

R-sq = 

90 

.4% 

R-sq(adj)= 

87.6% 

Analysis of 

Variance 






SOURCE 

DF 

SS 


MS 

F 

P 

Regression 

2 21. 

601 

10.800 

32.88 

0.000 

Error 

7 2. 

299 

0 . 

328 



Total 

9 23 • 

900 






图 15.6 带两个自 变量: Butler 运输公司的行驶里程 U ) 和运送次数（力)的 Minitab 计算机输出结果 

所定义的那样，这个标准差被称为估计量的标准误差，以 s 表示。因此，我们可以得到 ： s = 
x /028 =0.573。请注意，估计量的标准误差值出现在图 15. 6中的 Minitab 计算机输出 

结果中。 

表15.3是一般性的误差分析表(人1^0¥人），它提供了多元回归模型的 F 检验结果。检验统计 
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量 F 在表的最后一列，我们可以将它和分子自由度为 p , 分母自由度为 n - p - 1 的作个比 
较，从而得出假设检验的结果。通过回顾图 15.6 中的 Butler 运输公司的 Minitab 计算机输出结 
果，我们可以看到 Minitab 的方差分析表里面已经包含了上述信息。除此之外， Minitab 还提供了 
相对于 F 检验统计量的 p - 值。 


表 15. 3 p 个自变置的多元回归模型的 ANOVA 表 


方差来源 

平方和 

自由度 

均方差 

F 

回归方程 

SSR 

P 

MSR= — 

P 

r MSR 

f= mse 

误差 

SSE 

Tl - p -1 

MSE= — 
n —p 一 1 


合计 

SST 

n - 1 




t 检验 


如果 F 检验显示多元回归关系在总体上显著，那么 t 检验则可用于确定每一个单独参数的显 
著性。对单独参数显著性的 t 检验步骤 如下： 


单独参数显著牲的 t 检验 

对任意参数 A 

Ho ： A = 0 

Ha : j3i^0 


统计屋 

t b, 

t = _ 

Sb t 

(15.15) 

拒绝法则 



利用检验统 计量： 如果 K - 

- 或者 t>t a n ， 则拒绝 T/o 


利用 p - 值： 如果/^值<0 

丈, 则拒绝 讯 


式中， t a /2 是基于自由度为 n - p -1 的£分布的双侧分位数。 



在统计检验中，〜 是&标 准差的估计，&之值由计算机软件包提供。 

让我们将 t 检验应用于 Butler 运输公司的回归示例。请参考图 15.6 中对 t-ratio 计算的 
Minitab 输出结果， 6i ， 62 和\的值如下： 


bx =0. 061 135 = 009 888 

62 = 0. 9234 〜 =0.2211 
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利用公式 （15. 15)，我们可以得到有关参数戽， A 的假设的检验统计量： 

t =0. 061 135/0. 009 888=6. 18 
(=0. 923 4/0. 221 1 =4. 18 

请注意，这两个 r 值均在图 15.6 中由 Minitab 计算机输出结果提供，利用显著性水平 a = 0. 01，自 
由度 n - p - I =10-2-1 =7,我们可以通过附录 B 表2中得出双侧分位数 to.oos = 3. 499。根据 
6. 18>3.499,我们可以拒绝丑。 : )&=0。同样，由于 4. 18>3.499,我们拒绝//。: A =0。请注意， 

在 Minitab 的计算机输出结果中，值为 0.000 和0.004，这同样表明可以拒绝这些假设。因 
此，这两个参数均在统计上呈显著性。 

多重共线性 

我们在回归分析中使用自变量这个术语来表示用来预测或解释因变量的任何变量，但是这个 
术语并不意味着自变量本身在统计意义上是独立的。恰恰相反，在多元回归问题中大部分自变量 
在一定程度上都是彼此相关的。例如，在带两个自变量^(行驶里程）和奶(运送次数）的 Butler 运 
输公司的示例中，我们可以将行驶里程作为因变量，把运送货物次数作为自变量，以此来确定这 
两个变量本身是否相关。然后我们可以计算样本相关系数去确定这两个变量的相关程度。如此 
运算得出结果 hx ^ O .28, 因此，我们发现这两个自变量之间存在线性相关关系。在多元回归分析 
中，多重共线性 (multi colli nearity ) 指的就是自变量之间的这种关系。 

为了对多重共线性的潜在问题进行更好的分析，我们可以考虑对 Butler 运输公司的示例做一 
些简单的修改，原来的&表示货物运送的次数，这次我们用它来表示汽油消耗的加仑数。很显 
然， m (行驶里程）和 奶是相 关的，这意味着我们认为汽油消耗的加仑数取决于行驶里程。因此， 
我们可以从逻辑上推断^和 A 是高度相关的自变量。 

假设我们已经建立了方程6。+6,% +心奶，并且 F 检验显示总体关系是显著的，然后，我 
们对译进行 t 检验以确定奸#0是否成立，如果我们不能拒绝 i / o : A =0, 这是否意味着行驶时 
间与行驶里程是不相关的？并不一定，它很可能意味着由于模型里有^所以 ☆并 不对 y 值的确 
定有显著的作用，这种解释在我们的示例里是可行的。如果我们知道了汽油的消耗加仑数，我们 
在预测 y 值的过程中就不需要通过知道行驶里程数来获得有用信息。同样， 因为％ 已经存在于模 
型之中，我们也就没有必要再去增加汽油的消耗加仑数信息，以此为基础，我们通过进行 t 检验 
即能推断 A = 0。 

总的说来，在对单个参数的显著性进行£检验时，由多重共线性而引起的困难 在于： 当 F 检 
验显示多元回归方程总体呈显著性时，有可能得出结论，即没有一个单独参数是显著地不等于 
零。这个问题只有在自变量之间相关性很小时才能回避。 

为了确定多重共线性是否达到足够的程度以至于对模型估计产生问题，统计学家们已经开发 
出几种检验方法。对于带两个自变量的情形，如果它们的样本相关系数的绝对值超过0.7,根据 
经验检验方法的规律，多重共线性将有可能成为潜在问题。其他的检验方法更为先进，已经超出 
本教材所讨论的范围。 
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对于有两个自变量情形，当它们的样本相关系数大于 +0.70 或者小于 -0.70 时，将 
有可能产生多重共线性潜在影响。 


如果可能的话，我们应该尽一切努力去回避包含高度相关的自变量。然而在实际中，我们很 
难严格坚持这一规则，决策者们必须意识到，当他们有理由相信严重的多重共线性关系存在时， 
将每一个单独自变量对因变量的影响区分开将是一件很困难的事。 


当自变量密切相关时，我们将无法确定任一自变量对因变量的单独影响 



一般说来，多重共线性并不影响我们进行 
回归分析的方法，或者对从研究中解释结果亦 
没有影响。然而，当多重共线性相当显著时， 
即两个或者更多的自变量彼此高度相关时，我 
们在对单独参数 t 检验的结果进行解释时将遇 
到困难。除了本节所说明的问题之外，严重的 
多重共线性将导致最小二乘估计出现错误信 
息，那意味着，在模拟研究中，研究人员设计 


了回归模型然后利用最小二乘法求出参数饵, 
戽，炔等的估计量。研究已经 表明： 在高度多 
重共线性情形下，最小二乘估计量可能与被估 
参数有完全相反的符号。例如，炔的值实际上 
可能为+10，但它的估计值却可能为-2。因 
此，如果存在高度的多重共线性，我们应密切 
关注单个系数的符号。 



方法 

19. 在练习1中，根据10次观测结果所建立的估计回归方程如下 所示： 

繼:-二》 r = 29. 127 0+0. 590 6力 +0.4980 奶 

自测题 

式中 ， SST = 6724. 125, SSR = 6 216. 375,私 =0. 081 3,叫 =0. 056 7。 

a . 计算 MSR 和 MSE 0 

b . 计算 F 统计量，并在 a =0. 05的显著性水平下进行 F 检验。 

c . 在 a =0. 05的显著性水平下，对你的显著性进行 t 检验。 
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d . 在 a = 0. 05的显著性水平下，对烽的显著性进行《检验。 

20. 参考在练习2中给出的数据，估计回归方程 如下： 

y = - 18. 4 +2. 01 a +4. 74奶 

式中 ， SST = 15 182. 9, SSR = 14 052. 2,5 6] = 0. 247 1,^ = 0. 948 4。 

a . 在 a = 0.05 的显著性水平下，检验&，和: k 之间的显著性关系。 

b . 在 a =0. 05的显著性水平下，戽是显著的吗？ 

c . 在 a = 0. 05的显著性水平下，啟是显著的吗？ 

21. 以下的估计回归方程含有两个自 变量： 

y = 40.7 + 8.63 ^i +2.71 x 2 

将 &从 模型中排除，再利用最小二乘法处理可得到以^为自变量的估计回归 方程: 

y - 42. 0 + 9. 01 x \ 

a . 请解释两个模型中自变量^的系数。 

b . 能否用多重共线性来解释两个模型中^的系数为什么不同？如果能，怎么解释? 


应用 


22. 在练习4中给出了销售额关于库存投资和广告支出费用的估计回归 方程: 


j = 25 + 10^1 +8^2 

建立该模型的数据来自于对10家鞋店进行的调查，这些数 据有 ： SST =16 000, SSR = 12 000 

a . 请计算 SSE , MSE 和 MSR 。 

b . 在 a = 0. 05 的显著性水平下，利用 F 检验确定变量之间是否存在显著关系。 


23. 

自测题 

有模型 y = ( 3 o + ^ xi + /?2^2 + e 

式中 ——电视广告费用（千美 元）; 
^——报纸广告费用（千美元）。 


参考练习5。 

a . 在 a = 0. 01的显著性水平下，检验假设： 

Ho ： jSi =择= 0 

H 0 : ^ ,啟至少有一个不等于零 


b . 在 a =0. 05的显著性水平下检验 A 的显著性，是否应该从模型中删除幻? 

c . 在 a = 0. 05的显著性水平下检验烽的显著性，是否应该从模型中删除心? 
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24. 参考练习6中的数据，利用自重和马力两个自变量预测赛车和 GT 车从启动加速至1/4英里 
时的速度。 

a . 利用 F 检验确定这个关系的总体显著性，在 a =0. 05的显著性水平下，你的结论是什么？ 

b . 利用 f 检验来确定每个自变量的显著性，在 a =0. 05的显著性水平下，你的结论是什么？ 


25. 



CD 光盘数据 
Slocks 


从《证券投资数据库》中抽取16个公司作为样本，每一个公司的市盈率 ( P / E )、 总边 
际利润、每一个公司的销售量的增长率如下 （ Stock Investor Pro , American Association of 
Individual Investors , August 21， 1997) : 



市盈率 

总边际利润 （％) 

销售量增长率 (％) 

Abbott Laboratories 

22.3 

23.7 

10.0 

American Home Products 

22.6 

21. 1 

5.3 

Amoco 

16.7 

11.0 

16.5 

Bristol Meyers Squibb Co. 

25.9 

26.6 

9.4 

Chevron 

18.3 

11.6 

18.4 

Exxon 

18.7 

9.8 

8.3 

General Electric Company 

13. 1 

13.4 

13. 1 

Hewlett-Packard 

23.3 

9.7 

21.9 

IBM 

17.3 

11.5 

5.6 

Merck & Co.,Inc. 

26.2 

25.6 

18.9 

Mobil 

18.7 

8.2 

8. 1 

Pfizer 

34,6 

25.1 

12.8 

Pharmacia & Upjohn. Inc. 

22.3 

15.0 

2.7 

Procter & Gamble Co. 

5.4 

14.9 

5.4 

Texaco 

12.3 

7.3 

23.7 

Travelers Group, Inc. 

28.7 

^ 17.8 

28.7 


a . 建立估计回归方程，该方程在已知总的边际利润和销售增长率的情况下，可以用于 
预测市盈率。 

b . 利用 F 检验确定变量关系的总体显著性，在 a =0.05 的显著性水平下，你的结论 

是什么？ - 

c . 利用 z 检验确定变量关系的总体显著性，在 ct =0.05 的显著性水平下，你的结论是 
什么？ 

d . 从估计回归方程中消除不显著的自变量，你推荐的估计回归方程是什么？计算 
并将其与 （ a ) 中的纪进行比较，讨论它们之间的区别。 

26. 在练习10中，我们建立了关于租金收入和投入运营的汽车数量以及运营场地之间关系的估计 
回归方程。 

a . 用 a =0. 05来检测因变量和两个自变量之间的显著性关系。 

b . 在 a =0. 05的显著性水平下，投入运营的汽车数量这个变量是显著的吗？ 
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c . 在 a = 0. 05的显著性水平下，运营场地这个变量是显著的吗？ 


15. 6利用估计回归方程进行估计和预测 

在多元回归分析中，估计 y 的均值和某个特定值的步骤类似于包含一个自变量的回归分析。 
首先，回顾第14章，我们已经说明了对于； c 的给定值， y 的期望值的点估计和 y 的某个特定值 
的点估计是一样的。在这两种情况下，我们都利用作为点估计。 

在多元回归分析中，我们使用的步骤是一样的 。即： 将自变量^，&，… ，&的 给定值代入估 
计回归方程中，并利用相对应的值作为它们的点估计。考察 Buher 运输公司的例子，我们可以利 
用包含两个自变量^(行驶里程）和&(运送的次数）的估计回归方程来建立下面的两个 估计： 

1. 对于所有行驶100英里和运送两次货物的卡车，建立这些汽车平均行驶时间的置 信区间估计。 

2. 对于某个给定的运货汽车，如果行驶100英里和运送两次货物，则建立该汽车行驶时间的 

预测区间估计。 

利用估计回归方程- 0.869+0.061 1々+0.923幻，当 a = 100和； c 2 = 2时，我们得到; p 值 
如下： 


y = - 0.869+0.061 1 x 100 + 0. 923 x 2=7.09 

因此，在这两种情况下，汽车行驶时间的点估计近似为7个小时。 

为了建立关于 y 的平均值和某个别值的区间估计，我们利用类似于包含一个自变量的回归分 
析步骤。虽然所需要的公式已经超出了本书的讨论范围，但是对于多元回归分析，一旦设定了自变量 
% &的值，则计算机软件包往往能提供这些区间估计。在 Butler 运输公司的示例中，对于我 

们所选取的^ 和& 的数值，我们在表 15.4 中给出了 95%置信区间估计和95%预测区间 估计； 这 
些数据都可以利用 Minitab 得到。请注意， y 的某个特定值的区间估计比 y 的期望值的区间估计的区 
间范围更宽。这个区别仅仅反映了这样一个事实 ：对于 给定的^和 &值 ，我们对所有运货汽车的平 
均行驶时间的预测，它的精度比预测某一辆特定运货汽车的行驶时间的精度更高。 

表 15. 4 Butler 运输公司的 95% 置信区间估计和 95% 预测区间估计 


置信区间估计 预测区间估计 


的数值 

x 2 的数值 

下限 

上限 

下限 

上限 

50 

2 

3. 146 

4. 924 

2.414 

5. 656 

50 

3 

4. 127 

5. 789 

3. 368 

6. 548 

50 

4 

4. 815 

6. 948 

4. 157 

7. 607 

100 

2 

6. 258 

7. 926 

5. 500 

8. 683 

100 

3 

7. 385 

8. 645 

6. 520 

9.510 

100 

4 

8, 135 

9. 742 

7. 362 

10.515 
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方法 

27. 在练习1 •中，下面的估计回归方程是根据10个观测值所建 立的: 


y =29. 127 0+0. 590 6 a ；, +0. 498 0 欠 2 

a . 当 a = 180,欠 2 =310时，计算 y 的平均值的点估计。 

b . 当幻 = 180,处=310时，计算: x 的个别值的点估计。 

28. 参考练习2中的数据，估计回归方程如下 所示： 

. 10 . 0 m 1 w 

自测题 y — — 18. 4 + 2. 01 x \ +4. 74 a ?2 

a . 当々=45,处 =15 时，建立关于: k 的均值的95%置信区间估计。 

b . 当力 =45,奶=15时，建立关于: x 的95%预测区间估计。 


应用 

29. 在练习5中 ， Showtime Movie Theatres 公司的老板利用多元回归分析来预测每周的总营 

业收入 y ， 每周的总菅业收入 y 是电视广告费用（^)和报纸广告费用 u 2 ) 的函数。估 

自測题 

计回归方程 如下： 


f = 83. 2 + 2. 29 rci + 1 ■ 30文2 

a . 当电视广告费用为3 500美元（即 a =3. 5)，报纸广告费用为1 800美元（即幻= 
1.8) 时，计算预期的每周总菅业收入。 

b . 当广告费用如 ( a ) 中所示时，建立一个每周总收入平均值的95%置信区间估计。 

c . 假设两种广告费用如 ( a ) 中那样分配，建立一个下周总收入95%预测区间估计。 

30. 在练习6中，我们已经给出了 16种赛车和 GT 车的自重、马力和从开始启动加速至1/4英里 
时的速度 （ 1998 Road and Track Sports & GT Cars ) 0 

a . 对于 1999 Porsche 911 Carrera 型的赛车，它的自重为 2 910 磅，马力为296,试估计这辆赛 
车加速至1/4英里时的速度。 

b . 对所有具备 ( a ) 中特征的各种型号的赛车和 GT 车，建立关于加速至1/4英里时的速度的 
95%置信区间估计。 

c . 对 ( a ) 中所示的1999 Porsche 911 Carrera 型的赛车，建立关于加速至1/4英里时的速度的 
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95%预测区间估计。 

31. 在练习9中，我们已经建立了关于进入4年制大学的学生比例的估计回归方程，以学区平均 
每班学生人数和综合 SAT 成缋作为自变量。 

a . 如果某个学区平均每班有25个学生，学生综合 SAT 成绩为1 000分，请建立一个能进入4 
年制大学的学生平均比例的95%置信区间估计。 

b . 假设南卡罗来纳州 Conway 的一个学区平均每班有25个学生，综合 SAT 成绩为950分，请 
建立一个该学区能够进入4年制大学的学生比例的95%预测区间估计。 


15.7 定性自变量 

到目前为止，我们所考察的示例都是关于定量自变量的，例如学生人数、运送货物行驶距离 
和运送货物次数等等。但是，在许多情形下，我们必须利用定性 自变量 （qualitative independent 
variables ) 来工作，例如性别（男、女）、付款方式(现金、信用卡、支票），等等诸如此类的问题。 
本节的目的就在于说明在回归分析中如何应用定性变量。为了应用和解释定性变量，我们将考察 
Johnson 过滤水公司所面临的一个问题。 


自变量既可以是定性变量，也可以是定量变量。 

示例： Johnson 过滤水公司 

Johnson 过滤水公司给南加利福尼亚州的水过滤系统提供维修保养服务。当顾客的水过滤系统 
出现故障时，他们就会请求 Johnson 过滤水公司提供维修服务。为了估计维修服务的时间和成 
本， Johnson 过滤水公司的管理者计划预测每一次维修服务所需要的时间。因此，将维修时间作为 
因变量，维修时间与两个因素 相关： 最后一次维修以来的月数、维修问题的类型(是机械的还是电 


子的）。10次维修服务的样本数据如表 15. 5所示 
表 15. 5 Johnson 过滤水公司数据 


服务序号 

从最后一次维修以来的月数 

维修类型 

维修时间(小时） 

1 

2 

电子 

2.9 

2 

6 

机械 

3.0 

3 

8 

电子 

4. 8 

4 

3 

机械 

1. 8 

5 

2 

电子 

2.9 

6 

7 

电子 

4.9 

7 

9 

机械 

4.2 

8 

8 

机械 

4.8 

9 

4 

电子 

4.4 

10 

6 

电子 

4.5 
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令7表示维修时间，^表示从最后一次维修以来的月数。仅用&来预测 y 的回归模型如下 
所示： 

y = /3o + Pi xi + e 

利用 Minitab 来建立估计回归方程，我们得到如图15,7所示的输出结果，估计回归方程如下 所示： 

y = 2. 15 + 0.304。 （15.16) 

在显著性水平 0.05 下，对于 i (或 F 检验）， p - 值为0.016,这表明最后一次维修以来的 
月数显著依赖于维修时间。 R-sq = 53.4%， 这表明^仅仅解释了维修时间 53. 4%的变异性。 

The regression equation is 
Time = 2 .15 + 0.304 Months 

Predictor Coef Stdev t-ratio p 


Constant 

2.1473 

0.6050 

3.55 

0.008 


Months 

0.3041 

0.1004 

3.03 

0.016 


s = 0.7810 

R-sq 

= 53.4% 

R-sq(adj)= 

47.6% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

5.5960 

5.5960 

9.17 

0.016 

Error 

8 

4.8800 

0.6100 



Total 

9 

10.4760 





图 15.7 Johnson 过滤水公司以从最后 一次维 修以来的月数作为自变量的 Minitab 输出结果 


在 Minitab 输出结果中，变量名称 Months ( 月份）和 Time (时间）作为工作单上的表头 
输入，那么 ， n = 月份， y = 时间。 

为了将故障的维修类型导人回归模型，我们给出以下的变量定义： 

^ ro 如果维修类型是机械 
" 2 = 11 如果维修类型是电子 

在回归分析中，&被称为虚 拟变量 (dummy) 或指 标变量 (variable )。 利用这个虚拟变量，我们可以 
得到如下的多元回归 模型： 

y- + pi X] + P2X2 + e 

表 15. 6 是包含了虚拟变量数值的修正数据集。利用 Minitab 和表 15. 6 中的数据，我们可以得到模 
型参数的估计值。图 15. 8 中的 Minitab 输出结果表明估计多元回归方程如下 所示： 

y = 0. 93 + 0. 388 aji + 1. 26^2 


(15.17) 
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表 15.6 用虚拟变置表示维修类型 （ jc 2 =0 表示 机械； jt 2 = 1 表示电子）的 Johnson 过滤水公司的示例数据 



CD 光盘数据 
Johnson 



最后一次维修以 

维修类型 

以小时计的维 

客户 

来的月数 Ui ) 

U ) 

修时间 （ J 0 

1 

2 

1 

2.9 

2 

6 

0 

3.0 

3 

8 

1 

4.8 

4 

3 

0 

1. 8 

5 

2 

1 

2.9 

6 

7 

1 

4.9 

7 

9 

0 

4.2 

8 

8 

0 

4.8 

9 

4 

1 

4.4 

10 

6 

1 

4.5 


在 0.05 的显著性水平下，与 F 检验 （F = 21.36) 相联系的 p - 值为0.001，这表明回归关系是显 
著的。在图 15.8 中£检验的打印输出部分表明，从最后一次维修服务以来的月数 （ p - 值为 
0.000) 和维修的类型 （ P - 值=0.005)，这两个变量都是统计显著的。另外， R- sq = 85.9% 和 
R - sq ( adj ) =81.9%,这表明估计回归方程很好地解释了维修时间的变异性。因此，公式 （15. 17) 
在估计不同服务的必要维修时间时是很有用的。 


The regression equation is 

Time = 0.930 + 0.388 Months + 1.26 Type 

Predictor Coef Stdev t-ratio p 

Constant 0.9305 0.4670 1.99 0.087 

Months 0.38762 0.06257 6.20 0.000 

Type 1.2627 0.3141 4.02 0.005 

s = 0.4590 R-sq = 85.9% R-sq(adj) = 81.9% 

Analysis of Variance 


SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

2 

9.0009 

4.5005 

21.36 

0.001 

Error 

7 

1.4751 

0.2107 



Total 

9 

10.4760 





图 15.8 Johnson 过滤水公司例子的 Minitab 输出结果(以最后一次维修以来的月数及和维修类型 jc 2 作为自变量) 


在 Minitab 输出结果中，变量名称 Months (月份）、 Type ( 类型）和 Time ( 时间）作为工 
作单上的表头输入，那么 ， A =月份，处=类型， y = 时间。 


参数解释 

Johnson 过滤水公司例子中的多元回归方程如下 所示: 


E( y) = /3o + /3\Xi + pixi 


( 15 . 18 ) 
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为了理解定性变量的参数 /3 b 、 奸、烽的意义，我们可以考虑当 m = 0 ( 即机械维修）时的情 
况。假设对于机械维修，我们用 E (： H 机械)来表示平均维修时间，可以得到如下 公式： 

E ( y \ 机械） -/ 3 o + pi x \ + ) 82 ( 0 ) = / 3 o + pi xi (15.19) 

与此相似，对电子维修 U 2 = l )， 我们可以得到 

五 （ yl 电子）= /3 b + jSi + 体(1) = jSb ++ 体= (/3 o + ) 82 ) + pi xi (15.20) 


比较公式 （15. 19) 和 （15. 20), 我们看到期望的机械和电子的维修时间是^的线性数。两个方 
程的斜率是奸，但 y 的截距不同。对机械维修来说， y 的截距是公式 （15. 19) 中的 p Q , 对公式 
(15. 20) 中的电子维修是 （/3 o + 译)。烽说明了在机械的期望维修时间与电子的期望维修之间的差别。 


如果 A 是正的，电子的期望维修时间要比机械 的长； 如果炔是负的，电子的期望维修时间 
将比机械的短。最终，若烽= 0, 说明两者的期望维修时间没有差别。 

利用多元估计回归方程$ = 0.93 +0.388& + 1.26处，我们可以看到 0. 93是烽的估计值， 
1.26 是炔的估计值。因此，当； c 2 =0 (机械维修）时 

7 = 0. 93 +0. 388 a 

(15. 21) 

当^ 2 = 1( 电子维修）时 


J = 0. 93 +0. 388^1 + 1.26(1) 

= 2. 19 + 0. 388^1 

(15.22) 


实际上，对维修故障类型引入虚拟变量，我们可以得到用于预测维修时间的两个方程，一个对应 
于机械类型故障的维修时间，另一个对应于电子类型故障的维修时间。除此之外，由于 6 2 = 
1.26,我们可以计算出维修电子类型故障所需时间比维修机械类型故障平均多用 1.26 小时。 

图 15. 9是 Johnson 过滤水公司数据散点图，用纵轴表示按小时计算的维修时间 （ y ) ,用水平 


维 

修 

时 

间 

小 

时 



图 15. 9 Johnson 过滤水公司数据散点图 
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轴表示最后一次维修以来的月数 U ,)。 用 M 表示机械类型故障的维修时间的数据点，用 E 表示电 
子类型故障的维修时间的数据点。我们可以在散点图上绘出公式 （15. 21) 和 （15. 22) 所示的图形， 
这就从几何上证明了这两个方程可以用于预测维修时间，一个对应于机械维修，一个对应于电子 
维修。 

更为复杂的定性变量 

对于 Johnson 过滤水公司的例子，由于定性变量只有两个水平，即机械和电子，因此我们只 
需要很简单地定义一个虚拟变量就可以达到目的，用0表示机械类型故障维修，用1表示电子类 
型故障维修。但是如果定性变量多$两个水平时，则我们必须小心设置，既要考虑定义两个虚拟 
变量也要考虑对它们加以解释。就像我们所要说明的那样，如果某个定性变量有个水平，则我 
们需要定义 fc -1 个虚拟变量，每一个虚拟变量的值可以取为0或者1。 

具有 / c 个水平的定性变量必须用个虚拟变量来模拟，而且我们必须非常小心 
地对这些虚拟变量进行定义和解释。 

举个例子，假设某个复印机制造商将其销售区域组织分为某个州的 A 、 B 、 C 三个区域。管理 
者希望能够利用回归分析方法来帮助他们预测每个星期复印机的销售数量。将复印机的销售数量 
作为因变量，同时考虑另外几个自变量（销售人员的数量、广告费用支出等等）。同时，管理者认 
为销售地区也是预测复印机销售数量的重要因素。由于销售地区是定性变量，它有 A ， B ， C 三个 
水平，所以我们需要 3-1 =2个虚拟变量来表示销售地区。每个虚拟变量的定义如下 所示： 

^ i = | 1如果销售区域为 B 
I 0 其他情况 
/ 1如果销售区域为 C 

^2 — v 

I0 其他情况 

根据这个定义，我们可以得 到&和 ^的数值 如下： 

区域 JCl X2 

A 0 0 

B 1 0 

C 0 1 

对应于区域 A 的观测值被定 义为％ =0， ^2 = 0 ; 对应于区域 B 的观测值被定 义为％ =1， ^=0; 
对应于区域 C 的观测值被定义为 A =0， X 2 = lo 

复印机销售数量期望值 E ( y ) 关于虚拟变量的回归方程如下所示： 

E ( y ) = j 3 o + / 3 iX ] + P2X2 

为了帮助解释 /3 b 、0 和饵的含义，我们可以考察回归方程的三种 变化： 
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E y I 销售区域 A ) =:炀+你 x 0 + A x 0 =炔 
£*( yl 销售区域 B ) =炀+负 x 1 + A x 0 =烽+ 负 
五 （: rl 销售区域 C ) =/3 b + 负 xO + )&xl = /3 b + 炔 

因此，冼是销售区域 A 的销量平均值或者期望值， A 是销售区域 B 的销量平均值或者期望值，烽 
是销售区域 C 的销量平均值和销售区域 A 的销量平均值之间的差。 

因为销售区域是有三个水平的定性变量，所以需要有2个虚拟变量来表示，但是，我们可以 
指定： ci =0， X 2 = 0 表示销售区域 A, 指定 a = 1， X 2 = 0 表示销售区域 B， 指定％1=0，％2 = 1表 
示销售区域 C, 这种指定是任意的。例如，我们同时也可以指定^ = 1，表示销售区域 A, 
指定％1=0，％2=0表示销售区域 B， 指定％1==0，幻=1表示销售区域 C。 在这种情形下， /3i 可以 
被解释为销售区域 A 的销量均值和销售区域 B 的销量均值之间的差，炔可以被解释为销售区域 C 
的销量平均值和销售区域 B 的销量平均值之间的差。 

我们需要重视的要点 在于： 在多元回归分析之中，如果某个定性变量有个水平，则必须定 
义 /c-1 个虚拟变量。因此，如果在销售区域的例子中还有第四个销售区域，假设表示为 D， 则我 
们需要定义三个虚拟变量，&定义 如下： 

/ 1 如果销售区域为 D 
L0 其他情况 



方 i 去 

32. 考察如下一个回归方程，该方程包含一个因变量 y ， 一个定量的自变量^以及一个具 
«13> 有两个水平的（水平1和水平 2 ) 定性自变量。 

' a . 请写出因变量 y 关于自变量^和定性自变量的多元回归方程。 

b . 对应于定性自变量的水平1的 y 的期望值是多少？ 

c . 对应于定性自变量的水平2的 y 的期望值是多少？ 

d . 解释回归方程中的参数。 

33. 考察如下一个回归方程，该方程包含一个因变量 y ， 一个定量的自变量％ I 以及一个具有两个 
水平的（水平1、水平2 和水平 3) 定性自变量。 

a . 为了表示定性变量，需要几个虚拟变量。 

b . 请写出因变量 y 关于自变量^和定性自变量的多元回归方程。 

c . 解释回归方程中的参数。 
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应用 
34. 

自测题 


35. 



CD 光盘数据 
Repair 


下面的回归方程可以用于预测一家快餐店的销售收入： 

y = po + /3\ x \ + pi X2 + ^ e 

其中 a -英里之内的竞争对手数目； 

X 2 - 英里之内的人口数目（千 人）； 

_ ri 如果为驾车者设置不需要下车的供应 窗口； 

% 3 \ o 其他 情况； 
y = 销量（千美元）。 

在调查了 20家快餐店以后，得到如下估计回归 方程： 

j = 10. 1 -4. 2 xi + 6. 8 a ；2 + 15. 3 x 2 

a . 为驾车者设置不需要下车的供应窗口所带来的预期销量是多少？ 

b . 如果有一家快餐店，在一英里范围内有2个竞争者，有8000人口，并且没有为驾 
车者设置不需要下车的供应窗口，则这家快餐店预测的销售收入是多少？ 

c . 如果有一家快餐店，在一英里范围内有1个竞争者，有3000人口，并且为驾车者 
设置了不需要下车的供应窗口，则这家快餐店的预测销售收入是多少？ 

考察本节所介绍的 Johnson 过滤水公司例子，假设管理者获得的资料既包括最后一次维 
修以来的月数和故障的类型是电子还是机械，同时还包括一张记录维修人员完成维修 
任务的表单，修正后的数据如下 所示： 


维修时间 

( 小时） 

最后一次维修 

以来的月数 

故障类型 

维修人员 

2.9 

2 

电子 

Dave Newton 

3.0 

6 

机械 

Dave Newton 

4.8 

8 

电子 

Bob Jones 

1. 8 

3 

机械 

Dave Newton 

2.9 

2 

电子 

Dave Newton 

4.9 

7 

电子 

Bob Jones 

4.2 

9 

机械 

Bob Jones 

4.8 

8 

机械 

Bob Jones 

4.4 

4 

电子 

Bob Jones 

4.5 

6 

电子 

Dave Newton 


. 暂时忽略从最后〃次维修以来的月数（^)以及哪一个维修人员完成维修任务，建立 
估计简单线性方程，根据故障类型 （&) 来预测维修时间 （ y )。 如果维修故障类型为机 
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械，则^2=0；如果维修故障类型为电子，则 X 2 = lo 

b . 怎么评价 ( a ) 中所建立的估计回归方程对观测数据所给出的拟合？请解释。 

c . 暂时忽略从最后一次维修以来的月数以及故障类型，建立估计简单线性方程，在已 
知哪一个维修人员完成维修任务的情况下，预测维修时间。如果维修任务是由 Bob 
Jones 完成，则 X 3 = 0 ; 如果维修任务是由 Dave Newton 完成，则 ： C3 = l 。 

d . 评论 ( c ) 中所建立的估计回归方程对观测数据所给出的拟合，并解释。 

36. 这个问题是练习35的扩展。 

a . 建立估计回归方程，在已知从最后一次维修以来的月数，维修故障类型和维修任务由哪一 
位维修人员完成的情况下，预测维修时间。 

b . 在 0.05 的显著性水平下，检验 ( a ) 中所建立的估计回归方程的自变量和因变量之间是否存 
在显著性关系。 

c . 自变量奶表示维修任务由哪一位维修人员完成，取 a =0.05 这个自变量在统计上是否是显 
著的？对所观测的结果，如何解释？ 


37. 



CD 光盘数据 
Football 


全国橄榄球联盟根据球员的场上位置将他们分成5 —9个等级。等级的划分如下 标准: 
8— 9级从第一年 开始； 7.0—7.9 级现在 开始； 6.0—6.9 级将作为球队后备 力量; 
5.0—5.9 级可以组建俱乐部及其分部。下表所示的是25个球员的场上位置、体重、 


速度 (40 码）以及等级 （USA Today 、April 14, 2000)： 



位置 

体重 ( 磅） 

速度 ( 秒 ) 

Cosey Coleman 

守门员 

322 

5.38 

Travis Claridge 

守门员 

303 

5. 18 

Kaulana Noa 

守门员 

317 

5.34 

Leander Jordan 

守门员 

330 

5.46 

Chad Clifton 

守门员 

334 

5. 18’ 

Manula Savea 

守门员 

308 

5.32 

Ryan Johanningmei 

守门员 

310 

5. 28 

Mark Tauscher 

守门员 

318 

5.37 

Blaine Saipaia 

守门员 

321 

5. 25 

Richard Mercier 

守门员 

295 

5. 34 

Damion McIntosh 

守门员 

328 

5,31 

Jeno James 

守门员 

320 

5.64 

A1Jackson 

守门员 

304 

5.20 

Chris Samuels 

攻球手 

325 

4.95 

Stockax McDougle 

攻球手 

361 

5.50 

Chris Mclngosh 

攻球手 

315 

5, 39 

Adrian Klemm 

攻球手 

307 

4. 98 

Todd Wade 

攻球手 

326 

5,20 

Marvel Smith 

攻球手 

320 

5.36 

Michael Thompson 

攻球手 

287 

5.05 

Bobby Williams 

攻球手 

332 

5.26 

Darnell Alford 

攻球手 

334 

5.55 

Terrance Beadles 

攻球手 

312 

5. 15 

Tutan Reyes 

攻球手 

299 

5.35 

Greg Robinson-Ran 

攻球手 

333 

5. 59 


等级 


7.4 
7.0 
6 . 

6, 


6 

6 

6 

6 

6 


0 

0 

0 




6 

6 

6 


6 


4 
3 
6. 1 
6.0 
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38. 



CD 光盘数据 
Stroke 


a . 建立一个虚拟变量来表示球员的场上位置。 

b . 建立一个估计回归方程来表示球员等级与场上位置、体重，以及速度之间的相关关 
系。 

c . 在 0.05 的显著性水平下，检测 （ b ) 中所建立的估计回归方程里面自变量和因变量之 
间的关系是否显著？ 

d . 所建立的估计回归方程是否对所观测的数据给出了一个优良的拟合？ 

e . 球员的场上位置是否是决定球员等级的显著因素？利用 a =0. 05,并解释原因。 

f . 假设某个进攻球员体重300磅，40码距离短跑时间为 5.1 秒。利用 （ b ) 中所建立的 
估计回归方程估计这个球员的级别。 

美国心脏协会进行了一次历时10年的研究，获得了和中风病发率有关的年龄、血压以 
及吸烟的统计资料。以下是这一研究的部分数据。中风风险指的是病人在今后10年内 
中风发作的概率（乘100)。我们用一个虚拟变量来表示病人是否为吸烟者，1表示病人 
是吸烟者，0表示病人不是吸烟者。 


发病概率 

年龄 

血压 

是否吸烟 

12 

57 

152 

否 

24 

67 

163 

否 

13 

58 

155 

否 

56 

86 

177 

是 

28 

59 

196 

否 

51 

76 

189 

是 

18 

56 

155 

是 

31 

78 

120 

否 

37 

80 

135 

是 

15 

78 

98 

否 

22 

71 

152 

否 

36 

70 

173 

是 

15 

67 

135 

是 

48 

77 

209 

是 

15 

60 

199 

否 

36 

82 

119 

是 

8 

66 

166 

否 

34 

80 

125 

是 

3 

62 

117 

否 

37 

59 

207 

是 


a . 利用这些数据，建立一个估计回归方程，因变量为发病概率，自变量是病人的年 
龄、血压，以及病人是否是吸烟者。 

b . 吸烟是否是发病概率的一个显著因素？利用显著性水平 a = 0. 05,并解释原因。 

c . ArtSpeen 是一个68岁的吸烟者，他的血压为175,请计算他的发病概率。对这位 
病人，医生应该采取什么样的建议？ 
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15.8 残差分析 


在第14章中，我们阐述了在残差散点图和对异常值的识别中可以经常使用标准化残差。对于 
观测值 i 的标准化残差的一般性公式如下所示 •_ 


观测埴 

i 的标港化残差 

n ~ Yi 

Syt - yi 

(15.23) 

式中， 

Sy.-L 为残差 i 的标准差。 



残差 i 的标准差的一般性公式定义 如下； 

残差 / 

的标琏差 

Sy { — ^ - S V 1 - hi 

(15.24) 

式中 

S ——估计值的标准 误差； 
hi 第 i 次观测值的杠杆率。 




正如我们在第14章所说的那样，观测值的杠杆率 ( leverage ) 取决于自变量的观测值与这些观 
测值的平均值之间的差距。对于多元回归情形，计算第 f 次观测的 fc 、 hi 和标准化残差，如果 
用手算将是极其复杂的。但是，如果利用统计软件包进行计算，我们可以很容易地从计算机输出 


结果里面得到标准化残差。表 15. 7列出了本章前面所介绍的 Butler •运输公司例子的预测值、残差 
和标准化残差，我们利用 Minitab 统计软件包可以得到这些数值。表中的预测值是根据估计回归方 
程{ = -0. 869+0. 061 \xy +0.923 奶 计算出来的。 


表 15.7 Butler 运输公司回归分析的残差和标准化残差 


行驶里程 

运送次数 

行驶时间 

预测值 

残差 

标准化 

(xi) 

( x 2 ) 

( 少） 


(y-y) 

残差 

100 

4 

9.3 

8. 938 46 

0. 361 541 

0. 783 44 

50 

3 

4.8 

4. 958 30 

-0. 158 304 

- 0. 349 62 

100 

4 

8.9 

8. 938 46 

- 0. 038 460 

- -0.083 34 

100 

2 

6.5 

7. 091 61 

-0. 591 609 

- 1. 309 29 

50 

2 

4.2 

4. 034 88 

0. 165 121 

0. 381 67 

80 

2 

6.2 

5. 868 92 

0.^31 083 

0. 654 31 

75 

3 

7.4 

6. 486 67 

0.913 331 

1.689 17 

65 

4 

6.0 

6. 798 75 

-0.798 749 

- 1.773 72 

90 

3 

7.6 

7. 403 69 

0. 196311 

0. 367 03 

90 

2 

6. 1 

6. 480 26 

-0.380 263 

-0. 776 39 
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-2 - 

- 1 - 1 - 1 - 1 - 1—— y 

4 5 6 7 8 9 y 

图 15. 10 Butler 运输公司的标准化残差图 


检测异常值 

异常值 ( outlier ) 与其他数据相比较而言是一个特殊的观 测值； 换句话说，异常值与根据其他观 
测值所做的散点图所显示的趋势不相符。在第14章中，我们曾经给出了一个关于异常值的例子， 
并且讨论了如何利用标准化残差来检测异常值。如果某个观测值的标准化残差数值小于 -2 或者 
大于+2,则 Minitab 能够识别出这个观测值是一个异常值。对 Butler 运输公司例子中的标准化残 
差(见表 15. 7), 我们可以利用这一规则从数据集合中检测出所有的异常值。 

总的说来，如果在数据集合中存在一个或者多个异常值使得 s 增大，则估计标准化残差 i 的 
数值纟将会增加。由于在标准化残差公式 （15.23) 中分母是，但是在计算时需要考虑所以标 
准化残差的数值将会随着 s 的增加而减少。结果是残差虽然有可能很大，但是因为在公式 （15. 
23) 中存在一个大的分母，因此，有可能导致识别某个观测值为异常值的标准化残差规则无法 


图 15.10 所示的是 Butler 运输公司多元回归示例的标准化残差图，我们可以在表 15. 7中找到 
图中所使用的标准化残差和 y 的观测值。这个标准化残差图并没有表示出任何特殊反常的情况。 
与此同时，所有的标准化残差都位于 -2 和十 2 之间。因此，我们没有理由去质疑 s 呈正态分布这 
一假定，我们可以得出 结论： 关于模型的假设是合理的。 

我们还可以用正态概率分布图来确定 s 是否呈正态分布这一假定。正态概率分布图的步骤和 
解释已经在 14. 8节中讨论过。同样的步骤也适用于多元回归分析，除此之外，我们仍然可以利用 
统计软件包来完成计算并绘出正态分布图。 


• • 














2 


标准化残差 
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应用。我们可以通过应用一种被称为 按学生分布删除残差 （studentized deleted residuals ) 的标准化残 
差来避免这种情况的发生。 

按学生分布删除残差和异常值 

假设从数据集合中删除第 H 欠观测值，并利用其他的 n -1 次观测值建立一个新的估计回归 
方程。用表示删除了第 i 次观测值的数据集合所得到的估计标准误差，如果我们计算第 i 次 
观测残差的标准差，用5^代替公式（15.24)中的5,则我们在计算第 i 次观测的标准化残差时 
公式 （15. 23) 利用了&^的修正值，这样处理后所得到的标准化残差被称为按学生分布删除残差。 
如果第 j 次观测值是一个异常值，则⑽会小于 S 。 所以，第 i 次观测的按学生分布删除残差的绝 
对值将大于标准化残差的绝对值。在这种意义下，按学生分布删除残差能够检测出标准化残差所 
不能检测出的异常值。 

许多统计软件包提供了可以得到按学生分布删除残差的可选项。利用 Minitab ， 我们可以得到 
Butler 运输公司的按学生分布删除残差，其结果如表 15.8 所示。我们可以利用 f 分布来确定按学 
生分布删除残差是否存在异常值。回顾前面章节，我们用表示自变量的个数，用〃表示观测值 
的个数。因此，如果我们将第；次观测值从数据集合中删除，那么数据集合中剩下 n -1 个观测 
值； 在这种情形下，误差平方和的自由度是对于 Butler 运输公司例子，^ = 10, 
p = 2 , 删除第 i 次观测值以后， 自 由度是9-2-1=6。在 0.05 显著性水平下，具有6个自由度 
的 r 分布双侧分位数以。 25 =2.447 (见附录8表2)。如果第 i 次观测的按学生分布删除残差的数 
值小于 -2.447 或者大于 +2.447, 则我们可以得出 结论： 第 i 次观测值是异常值。因为在表1 
5.8 中，按学生分布删除残差没有超出这一界限，所以我们可以 断定： 在这个数据集合里，不可 
能存在有异常值。 


表 15. 8 Butler 运输公司按学生分布删除残差 


行驶里程 （ X ,) 

送货次数 （ x 2 ) 

行驶时间（少） 

标准化残差 

学生化删除残差 

100 

4 

9.3 

0. 783 44 

0. 759 39 

50 

3 

4.8 

- 0. 349 62 

-0. 326 54 

100 

4 

8.9 

- 0. 083 34 

-0. 077 20 

100 

2 

6.5 

-1.309 29 

一 1. 394 94 

50 

2 

4.2 

0.381 67 

0. 357 09 

80 

2 

6.2 

0. 654 31 

0, 625 19 

75 

3 

7.4 

1.689 17 

2. 031 87 

65 

4 

6.0 

- 1.773 72 

-2. 213 14 

90 

3 

7.6 

0. 367 03 

0. 343 12 

90 

2 

6. 1 

- 0, 776 39 

- 0. 751 90 
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有影响的观测值 

在 14.9 节中，我们讨论了怎样利用观测值的杠杆率来识别具有较强影响的观测值，这些观测 
值对回归结果的影响比较强。正如我们在关于标准化残差的讨论中所述的那样，观测值的杠杆 
率，以表示，它是关于自变量和观测值的平均值之间差距的度量。杠杆率的值可以很轻松地从 
统计软件包里面得到。 Minitab 能够计算出杠杆率的数值，而且还能够利用经验 法则： hi>3(p + 
\) / n 来 识别有影响的观测值 (influential observations ) 。对于 Butler 运输公司的例子 ， p = 2, n = 10, 
杠杆率的临界值是： 3 x (2 + 1 ) /10 = 0. 9。利用 Minitab 可以得到 Butler 运输公司例子的杠杆率数 
值，如表 15.9 所示。由于不超过0.9,所以我们在这个数据集合里没有检测到有影响的观测 
值。 


表 15.9 Butler 运输公司的杠杆率和库克距离测度 


行驶里程 Ui) 

运送次数 （ JC 2 ) 

行驶时间 （： V) 

杠杆率 U) 

库克距离测度 （ A) 

100 

4 

9.3 

0. 351 704 

0, 110 994 

50 

3 

4.8 

0. 375 863 

0. 024 536 

100 

4 

8.9 

0.351 704 

0. 001 256 

100 

2 

6.5 

0. 378 451 

0. 347 923 

50 

2 

4.2 

0. 430 220 

0. 036 663 

80 

2 

6.2 

0. 220 557 

0. 040 381 

75 

3 

7.4 

0. 110 009 

0. 117 562 

65 

4 

6. 0 

0. 382 657 

0. 650 029 

90 

3 

7.6 

0. 129 098 

0. 006 656 

90 

2 

6. 1 

0. 269 737 

0. 074 217 


利用库克距离测度识别有影响的观测值 


利用杠杆率识别有影响的观测值时有可能出现一个 问题： 某个观 
测值被认为是一个有高杠杆率的观测值，但是根据所得的估计回归方 
程，这个观测值不一定有较强的影响。例如，表 15. 10是一个由8个 
观测值所组成的数据集合以及与它们相对应的杠杆率（由 Minitab 得 
出）。因为第8个观测值的杠杆率是0.91>0. 75( 杠杆率的临界值）， 
所以我们可以确认这是一个有影响的观测值。但是，在得出任何最后 
的结论之前，让我们从不同角度来考虑这个问题。 


表 15. 10 利用杠杆率标准 

说明潜在问题的数据集合 


Xi 

yi 

杠杆率 h 

1 

18 

0. 204 170 

1 

21 

0. 204 170 

2 

22 

0. 164 205 

3 

21 

0. 138 141 

4 

23 

0. 125 977 

4 

24 

0. 125 977 

5 

26 

0. 127 715 

15 

39 

0. 909 644 
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图 15. 11显示的是表 15. 10数据集合的散点图和估计回归方程。我们利用 Minitab 建立这些数 
据的估计回归方程 如下： 


y =18.2 + 1.39^ 


y 



图 15.11 中的直线即为这个方程的图形。现在，让我们将 ； c = 15, y = 39 的观测值删除，并对剩 
余的7个观测值作出估计回归方程拟合。新的估计回归方程如下 所示： 

y =18. 1 + 1.42 欠 

请注意，新的估计回归方程的 y 轴截距和斜率与利用所有数据得到的数值并没有显著的不同。虽 
然，杠杆率法则确认第8个观测值为一个有影响的观测值，但是，很显然这个观测值对结果的影 
响微乎其微。因此，在某些情况下，仅仅使用杠杆率来确认有影响的观测值将导致错误的结论。 

库克距离测度 ( Cook’s distance measure ) 利用第€次观测值的杠杆率 / i ; 和残差 （yi i ) 来确定观 
测值是否有较大的影响。 
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库克距离测度区分有影晌的观测值 

n (yi-n ) 2 hi ' 
1 一 (p - 1 )^ 2 l ( 1 - hi) 2 - 

式中 Di ——对观测值 i 的库克距离 测度； 

ji - ji ——观测值 Z 的残差•， 

hi -观测值纟的杠杆率； 

p ——自变量的 数量； 
s ——估计值的标准差。 


(15. 25 ) 


如果库克距离的测度随着观测值的残差和/或杠杆率的增大而增大，则表明这个观测值是一 
个有影响的观测值。作为经验法则，如果认>1,则表明第 i 次观测值是一个有影响的观测值，因 
此应该对这个观测值作更深一步的考察。对于 Butler 运输公司的示例，表 15.9 最后一列是由 
Minitab 给出的库克距离测度。第8个观测值的库克距离测度 ft =0.650029，这个观测值的影响 
最大。但是，应用经验法则 A >1, 对于 Butler 运输公司的例子我们不应该考虑有影响的观测值的 
存在。 



1. 确认异常值和有影响的观测值的步骤可以提 
前警告 我们： 某些观测值可能会对回归结果 
产生潜在的影响。我们应该对每一个异常值 
和有影响的观测值进行仔细的检查。如果发 
现数据误差，则应该修正数据误差并重新进 
行回归分析。总的说来，我们不应该将异常 
值和有影响的观测值从数据集合中删除，除 
非有明显的证据 表明： 它们并不是根据我们 
所研究的样本元素计算得来，因此也就不应 
该被纳入原始数据集合中。 


2. 为了确定库克距离测度 A 的数值是否足够 
大，以使我们能够 推断： 第〖次观测值是有 
影响的。我们也可以将 A 的数值和分子自 
由度为/) + 1、分母自由度为 n - p - 1的 F 
分布的第50个百分位数（以 Fo . 5 o ) 来进行 
比较。我们可以利用对应于 0.50 的显著性 
水平的 F 分布表来执行这一检验。我们所 
给出的经验法则 （ A >1) 就是以以下事实为根 
据的： 对于很多广泛的不同情形， F 分布表 
的数值接近于1。 
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方法 


39. 关于两个变量； c 和： k 的数据如下 所示: 



自测题 


Xi 

1 

2 

3 

4 

5 

yi 

3 

7 

5 

11 

14 


a. 


根据这些数据建立估计回归方程。 


b . 请做关于 （的标 准化残差图，在这些数据中是否存在异常值？并解释原因。 

c . 计算这些数据的按学生分布删除残差。在 0.05 的显著性水平下，这些观测数据中 
的任何一个是否可以被认为是异常值？解释原因。 


40. 关于两个变量％和； k 的数据如下所示: 


Xi 

22 

24 

26 

28 

40 

yi i 

12 

21 

31 

35 

70 


a . 根据这些数据建立估计回归方程。 

b . 计算这些数据的按学生分布删除残差。在 0.05 的显著性水平下，这些观测数据中的任何一 
个是否可以被认为是异常值？解释原因。 

c . 计算这些数据的杠杆率。在这些数据中，是否存在有影响的观测值？解释原因。 

d . 计算关于这些数据的库克距离测度。是否发现有影响的观测值？解释原因。 


应用 


41. 



自测题 


练习5给出了 Showtime Movie Theaters 每周的营业总收入（千美元）， 
美元），报纸广告费用（千美元），如下 所示： 

每周的营业总收入 电视广告费用 报纸广告费用 

(千美元） （千美元） （千美元） 



CD 光盘数据 


Showtime 


96 

90 

95 

92 

95 

94 

94 

94 


5 

2 

4 

2 


0 

0 

0 


0 



2.5 

3.0 





2 

4 

2 


3 

2 


电视广告费用（千 
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a . 建立每周的营业总收入关于电视广告费用和报纸广告费用的估计回归方程。 

b . 画出关 于：？ 的标准化残差图，这个残差图是否支持关于 e 的假设？解释原因。 

c . 检查这些数据中的每一个异常值，可以得出什么结论？ 

d . 是否存在有影响的观测值？解释原因。 

42. 练习6给出了 16种赛车和 GT 车的马力，自重，启动加速至1/4英里时的速度。假设 


启动加速至 1/4 
英里时的速度 
90, 7 
108.0 

93.2 

103.2 
102. 1 

116.2 

91.7 

89.7 
93.0 

92.3 
99.0 
84.6 

103.2 

93.2 
105,0 
97.0 

a . 建立估计回归方程，利用价格和马力来预测从启动加速至1/4英里时的速度。 

b . 画出关于:？的标准化残差图，这个残差图是否支持关于 e 的假设？解释原因。 

c . 检查这些数据中的每一个异常值，可以得出什么结论？ 

d . 是否存在有影响的观测值？解释原因。 

43.在练习9中，我们给出了学区的班级平均学生数、综合 SAT 分数和考入四年制大学的学生比 
例的数据。 

a . 建立估计回归方程，在已知综合 SAT 分数的情况下，预测考入四年制大学的学生比例。 

b . 以 （ a ) 中所建立的估计回归方程为基础，检查这些数据是否发现异常值和/或有影响的观测 
值？解释原因。 

c . 建立估计回归方程，在已知班级平均学生数、综合 SAT 分数的情况下，预测考入四年制大 
学的学生比例。 

d . 以 （ c ) 中所建立的估计回归方程为基础，检查这些数据，是否发现异常值和/或有影响的观 



每一种赛车和 GT 车的价格如下所示，完整的数据集合 如下: 


CD 光盘数据 


赛车和 GT 车 


Auto2 Accura Integra Type R 

Accura NSX-T 
BMW Z3 2. 8 
Chevrolet Camaro Z28 
Chevrolet Corvette Convertible 
Dodge Viper RT /10 
Ford Mustang GT 
Honda Prelude Type SH 
Mercedes-Benz CLK320 
Mercedes-Benz SLK230 
Mitsubishi 3000GT VR-4 
Nissan 240 SX SE 
Pontiac Firebird Trans Am 
Porsche Boxster 
Toyota Supra Turbo 
Volvo C70 


价格 ( 千美元） 自重 ( 磅）马力 

25.035 2 577 195 

93. 758 3066 290 

40. 900 2 844 189 

24. 865 3 439 305 

50. 144 3246 345 

69,742 3 319 450 

23. 200 3 227 225 

26. 382 3 042 195 

44. 988 3240 215 

42. 762 3 025 185 

47.518 3 737 320 

25.066 2 862 155 

27. 770 3455 305 

45. 560 2822 201 

40. 989 3 505 320 

41. 120 3 285 236 


测值？解释原因。 
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作为第14章中简单线性回归分析的延伸，我们在本章中介绍了多元回归分析。多元回归分析 
使得我们可以理解因变量是如何与两个或者多个自变量相关联的。回归方程 E ( y ) = A > + /3,^ + 
泽沿+… +/3# P 描述了因变量 y 的期望值或者平均值是如何取决于自变量的值。利 
用样本数据和最小二乘法我们建立了估计回归方程 f = bo + b\x\ + 62 x 2 +…+ bpX P 0 事实上， 
b '， b 2 , …， 心是用 来估计模型未知参数烽，泽，…， A 的样本统计量。在整个章节中，我们都使 
用了计算机输出结果，这样做的目的是为了 强调： 统计软件包是执行多元回归分析所需要的大量 
计算的惟一实用工具。 

作为对估计回归方程拟合度的一个度量，我们引入了多元判定系数。多元判定系数测量了因 
变量 y 的变异程度，这可由估计回归方程来解释。与此相似，修正后的多元判定系数也是一个对 
拟合度的测量，它针对自变量的数目进行调整，因此可以避免过高估计由于自变量数目增加而带 
来的影响。 

同时我们还介绍了 F 检验和 f 检验，这两个检验作为工具可以用于判断变量间的关系在统计 
上悬否显著。 F 检验可以用于确定因变量和所有自变量在总体上是否存在显著关系。 〖检 验可以 
用于确定在回归模型中的其他自变量已知的情况下，因变量和单个自变量之间是否存在显著关 
系。多重共线性描述的是自变量之间的相关性，前面已经讨论过。 

定性自变量这一节描述了如何利用虚拟变量将定性数据用于多元回归分析。最后一节作为本 
章的结束部分，我们介绍了如何利用残差分析来证明模型的假设、检测异常值和确认有影响的观 
测值。同时，本章还讨论了标准化残差、杠 杆率、 按学生分布删除残差以及库克距离测度。 


水 语辨义 


多元回归 分析： 关于两个或者多个自变量的回归分析。 

多元回归 模型： 描述因变量 y 是怎样依赖于自变量％ 2 , …，％ 和误差项£的方程。 

多元回归 方程： 描述关于因变量的期望值或均值与自变量的数值之间的关系的数学方程 ，即： 

E ( y ) = /3 o + pi a + /?2 + …+ p P x po 

多元估计回归 方程： 以样本数据和最小二乘法方法为基础估计出的多元回归方程 ，即： y = 6 o + 

b[ x \ + 62^2 + ■** + bpXp o 

最小二 乘法： 用于建立估计回归方程的方法，该方法可以使残差（因变量观测值和因变量估 

计值 f 之间的离差）平方和最小。 

多元判定 系数： 估计多元回归方程拟合度的测量。它可以解 释为： 由估计回归方程所导致的因 

变量 y 的变异程度。 
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修正多元判定 系数： 对估计多元回归方程拟合度的测量。它随着模型中自变量个数的变化而进行 

调整，因此可以避免过高估计由于自变量增加所导致的影响。 

多重共 线性： 用来描述自变量之间关系的术语。 

定性自 变量： 含有定性数据的自变量。 

虚拟 变量： 用来模拟定性自变量的影响的变量。虚拟变量的数值只能取为1或者0。 

杠 杆率： 反映自变量的数值与它们的平均值之间差距的度量。 

异 常值： 与其他观测值轨迹不相吻合的观测值。 

按学生分布删除 残差： 删除第 i 个观测值，然后进行回归分析和计算得到估计值的修正标准误 

差，再以此为基础所得到的标准化残差。 

有影响的观 测值： 对回归结果有重大影响的观测偉。 

库克距离 测度： 根据第 i 次观测值的杠杆率和残差所得到的观测值影响的度量。 


耋要公 



多元回归模型 


多元回归方程 

多元估计回归方程 

最小二乘法 

SST 、 SSR 和 SSE 之间的关系 


y = f 3\ xi + 择处 + …+ /3 pX P + c 


E ( y ) = + 奸幻 + + …+ ppXp 


y = bo + b\ X] + 62 X 2 + … + bpX p 


min X ( y « - yd 2 


多元判定系数 


修正多元判定系数 


SST = SSR + SSE 


R 2 = 


SSR 

SST 


圮 =1 -(1 - R 2 )- 


-1 


_p — 1 


(15.1) 

(15.2) 

(15.3) 

(15.4) 

(15.7) 

(15.8) 

(15.9) 



均方回归 
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均方误差 


F 检验统计量 


t 检验统计量 


观测值 i 的标准化残差 


残差 i 的标准差 

库克距离测度 


MSR = 


SSR 

P 


MSE = 


SSE 


-p - 1 


F 


MSR 

MSE 



Yi-Yi 


- 



Vl 一 hi 


Di = 


(y ‘ 一％ ) 2 [ k ' 
(p - 1V L (1 - hi) 2 - 


(15.12) 


(15.13) 


(15.14) 


(15.15) 


(15.23) 


(15.24) 


(15.25) 


什充 f 东 


44, Clearwater 大学的行政管理人员建立了如下的估计回归方程，因变量是学生最后的大学 GPA , 
自变量是学生的 SAT 数学分数和高中 GPA 。 方程如下 所示： 


y = -1.41 +0. 0235 x \ + 0. 004 

式中 &——高中 GPA 的； 

^2—— SAT 数学分数； 
y ——最后的 GPA 。 

a . 解释这个估计回归方程的系数。 

b . 某个学生，他的高中 GPA 为84, SAT 数学分数为540,请估计他的最后大学 GPA 。 

45. 电子协会的人事主管建立了如下的估计回归方程，因变量是雇员关于工作满意程度测试的分 
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数，自变量是他（或她）的雇用时间和薪水。方程如下 所示: 

y = 14. 4 - 8. 69 ^；i + 13. 5 X2 


式中〜——雇用时间（年）； 

X : -薪水（美元）； 

>——工作满意度测试分数(分数越高，表示工作满意度越高）。 

a . 解释这个估计回归方程的系数。 

b . 假设某个员工雇用年限为4年，每小时薪水为 6.50 美元，请计算出这位员工的工作满意 
度测试分数。 

46. 关于回归分析的部分计算机输出结果如下 所示： 


The regression equation is 
Y = 8.103 + 7.602 XI + 3.111 X2 


Predictor Coef Stdev 

Constant 2.667 

XI 2.105 

X2 0.613 


s = 3,35 R-sq = 92.3% R-sq(adj) 


Analysis of Variance 


t-ratio 


% 


SOURCE DF SS MS F 

Regression _ 1612 _ _ 

Error 12 _ _ 

Total 


a . 计算合适的 《 值。 

b . 在 a = 0. 05 的显著性水平下，检测 奸和炔 的显著性。 

c . 计算自由度 ( DF )， 平方和 ( SS ) 以及均方 （ MS ) 列中的空白项。 

d . 计算祀。 

47. 回顾练习44， Clearwater 大学的管理人员建立了如下的估计回归方程，因变量是学生最后的大 
学 GPA ， 自变量是学生的 SAT 数学分数和高中 GPA 。 方程如下 所示： 

y = -1.41 +0.023 5& +0. 004 86 ^ 

式中，高中 GPA , u = SAT 数学分数， y = 最后的 GPA 。 

Minitab 的一部分计算机输出结果如下 所示： 
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The regression equation is 
Y = -1.41 + .0235 XI + .00486 X2 


Predictor 

Constant 

XI 

X2 

8 = 0.1298 


Coef 

-1.4053 

0.023467 


R_sq = 


Stdev 

0.4848 

0.008666 

0.001077 

R-sq(adj) 


Analysis of Variance 


t-ratio 


SOURCE DF SS MS F 

Regression _ 1.76209 _ _ 

Error _ _ _ 

Total 9 1.88000 — 


a . 完成计算机输出结果中的空白项。 

b. 计算 F 值，并在 0.05 的显著性水平下，检测是否存在一个统计显著关系。 

c . 估计回归方程是否为数据提供了一个良好的拟合，解释原因。 

d. 利用 f 检验，在 a = 0. 05 的显著性水平下，检验假设 乩：戽=0 和假设 //。：泽=0。 

48. 回顾练习45，电子协会的人事主管建立了如下的估计回归方程，因变量是雇员关于工作满意 
程度测试的分数，自变量是他（或她）的雇用时间和薪水。方程如下 所示： 

y — 14. 4 - 8. 69^1 + 13. 5 xi 

式中，^=雇用时间（年），& = 薪水(美元 ）， y = 工作满意度测试分数（分数越高，表示工作 
满意度越高）。 

Minitab 的一部分计算机输出结果如下 所示： 


The regression equation is 

Y = 14.4 - 8.69 XI + 13.52 X2 



Predictor 

Coef 

Stdev 

t-ratio 

Constant 

14.448 

8.191 

1.76 

XI 


1.555 


X2 

13.517 

2.085 


s = 3.773 

R-sq = % 

R-sq(adj)= 

% 


Analysis of Variance 

SOURCE DF SS MS F 

Regression 2 _ _ _ 

Error _ 71.17 _ 

Total 7 720.0 


706 商 务与经济统计 


a . 完成计算机输出结果中的空白项。 

b . 计算 F 值，并在 0.05 的显著性水平下，检测是否存在一个统计显著关系。 

c . 估计回归方程是否为数据提供了一个良好的拟合，解释原因。 

4.利用 z 检验，在 o :=0.05 的显著性水平下，检验假设7/。 ： 饵=0和假设讯：烽=0。 


49. 



CD 光盘数据 


Computer 


从 Stoc/c Pro 中摘录了 25个计算机硬件公司的一些数据，包括每股价格、每股 

账面价值以及每股投资收益率，如下所示 （Stock Investor Pro , American Association of In ¬ 
dividual Investors , August 21， 1997) : 



每股价格 

每股账面价值 

每股投资收益 率(％) 

Amdahl Corporation 

12.31 

4.94 

-49.7 

Apple Computer, Inc. 

21.75 

9. 46 

-71.8 

Auspex Systems, Inc. 

11.00 

4.95 

17.2 

Capital Associates 

3.25 

4.33 

5. 1 

Compaq Computer Corp. 

65. 50 

9.58 

20.8 

Data General Corporation 

35.94 

8 . 46 

13.3 

Dell Computer Corporation 

82. 06 

2.33 

74.5 

Digi International 

15.00 

7.35 

-11.9 

Digital Equipment Corp. 

43.00 

22. 40 

-12.9 

En Pointe Technologies 

14. 25 

4. 11 

18.8 

Equitrac Corporation 

16. 25 

6.83 

10.7 

Franklin Electronic Pbls. 

12 . 88 

9. 13 

9.0 

Gateway 2000, Inc. 

39. 13 

6.07 

28.8 

Hewlett-Packard Company 

61.50 

14. 14 

18.7 

IBM 

101.38 

20 . 12 

29.9 

Ingram Micro, Inc. 

28. 75 

6 . 35 

15. 1 

Maxwell Technologies, Inc. 

30.50 

3.78 

11 . 8 

MicroAge, Inc, 

27. 19 

12.59 

9.8 

Micron Electronics, Inc. 

16.31 

3.64 

28.3 

Network Computing Devices 

11 . 88 

3.56 

4.0 

Pomeroy Computer Resources 

33.00 

10.03 

16.5 

Sequent Computer Systems 

28. 19 

10.64 

3.3 

Silicon Graphics, Inc. 

27.44 

9. 12 

-4.3 

Southern Electronics Corp. 

15. 13 

6 . 15 

16. 1 

Stratus Computer, Inc. 

55.50 

22. 38 

11 . 1 

Sun Microsystems, Inc. 

48. 00 

6.40 

26.2 

Tandem Computers, Inc. 

34. 24 

9.49 

8.7 

Tech Data Corporation 

38.94 

10. 25 

14.3 

Unisys Corporation 

11.31 

0.68 

1.6 

Vitech America, Inc. 

14.63 

3.48 

24.3 


a . 建立估计回归方程，在已知每股账面价值的情况下，预测每股价格。在 0.05 的显 
著性水平下，检测是否存在统计显著关系。 

b . ( a ) 中所建立的估计回归方程是否对数据给出了良好的拟合？解释原因。 
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c . 建立估计 ■回归 方程，在已知每股账面价值和每股投资收益率的情况下，预测每股价 
格。在 0.05 的显著性水平下，检测总体显著性。 ^ 

50. 以下的数据是关于16种赛车和 GT 车的价格、马力、自重、速度从0加速到每小时60 

英里所需的时间，启动加速至1/4英里时的速度 （7998^^ & Track Sports & GT 



CD 光盘数据 


Auto3 



价格 ( 千美元） 

自重 ( 磅 ) 

马力 

0 到 60( 秒） 

启动加速至 1/4 

英里时的速度 

Acura Integra Type R 

25. 035 

2 577 

195 

7.0 

( 英里 / 小时） 

90.7 

Acura NSX-T 

93. 758 

3 066 

290 

5.0 

108,0 

BMW Z 3 2. 8 

40. 900 

2 844 

189 

6.6 

93.2 

Chevrolet Camaro Z28 

24, 865 

3 439 

305 

5.4 

103.2 

Chevrolet Corvette Convertible 50. 144 

3 246 

345 

5.2 

102. 1 

Dodge Viper RT/10 

69. 742 

3 319 

450 

4.4 

116.2 

Ford Mustang GT 

23. 200 

3 227 

225 

6. 8 

91.7 

Honda Prelude Type SH 

26. 382 

3 042 

195 

7.7 

89.7 

Mercedes-Benz CLK320 

44.988 

3 240 

215 

7. 2 

93.0 

Mercedes-Benz SLK230 

42. 762 

3 025 

185 

6.6 

92.3 

Mitsubishi 3000GT VR-4 

47.518 

3 737 

320 

5.7 

99.0 

Nissan 240 SX SE 

25. 066 

2 862 

155 

9. 1 

84.6 

Pontiac Firebird Trans Am 

27. 770 

3 455 

305 

5.4 

103.2 

Porsche Boxster 

45. 560 

2 822 

201 

6. 1 

93.2 

Toyota Supra Turbo 

40.989 

3 505 

320 

5, 3 

105.0 

Volvo C 70 

41. 120 

3 285 

236 

6.3 

97.0 


a . 建立一个估计回归方程，利用四个自 变量： 价格、自重、马力和速度从0加速到60 
英里每小时所需要的时间，来预测从启动加速到1/4英里时的速度。 

b . 利用 F 检验来确定回归结果的显著性。在 0.05 的显著性水平下，你可以得出什么 
结论？ 

c . 利用 f 检验来确定每一个自变量的显著性，在 0.05 的显著性水平下，你可以得出 
什么结论？ 

d . 删除不显著的自变量，并给出你所推荐的估计回归方程。 

e . 画出标准残差图，残差图的图形是否合理？ 

f . 数据里面是否含有异常值？ 

g . 数据里面是否含有有影响的观测值？ 

51. 尼尔森媒体研究搜集了关于在 ABC 、 CBS 、 NBC 、 Fox 、 UPN 和 WB 电视网的黄金时段播出的 
广告数据，数据显示了 1997年4月28日到5月4日期间，观看广告的家庭户数（百万）和广 
告播出的次数 （ i /&4 7 W a ： r ， May 5, 1997)。 
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CD 光盘数据 
Nielsen 


52. 



CD 光盘数据 
Trucks 


广告厂商 

广告播出次数 

观看广告的家庭户数 

Burger King 

86 

616.7 

McDonald’s 

54 

439.2 

Sears 

33 

338.0 

Wendy’s 

28 

191.7 

Ford Escort 

20 

174.6 

Austin Powers movie 

14 

161.3 

Nissan 

16 

161. 1 

Pizza Hut 

16 

147.7 

Saturn 

16 

146.3 

Father’s Day movie 

11 

138.2 


a . 以广告播出次数作为自变量，观看广告播出的家庭户数作为因变量，绘制散点图。 
在这个散点图里面是否存在异常值？解释原因。 

b . 建立一个估计回归方程，说明观看广告播出的家庭户数与广告播出的次数之间的联 
系。这两个变量之间的关系在统计上是否显著？利用 a =0. 05的显著性水平进行检 
测。 

c . 考虑增加一个自变量 BigAds ， 其中如果广告播出次数大于30，则 BigAds 数值为 
1，反之则为0。建立一个估计回归方程，在已知广告播出次数和虚拟变量 BigAds 
的情况下，预测观看广告播出的家庭户数。 

d . 利用 a =0. 05的显著性水平来检测 （ c ) 中所增加的虚拟变量的统计显著性。 

e . 在模拟广告播出次数和观看广告的家庭户数之间的关系时，虚拟变量起了什么作用？ 

市场为消费者购买轻便车和小型卡车提供了很大的选择余地，对很多消费者而言，一 
个重要的影响因素是车的转让销售情况。下表给出了 10 种轻便车， 10 种小型卡车， 
以及 10 种大卡车两年后的转让销售率 （％) ，以及厂商所建议的零售价格 （ /^^nger’5 
New Cars & Trucks 2000 Buyer’s Guide) 0 




建议零售 

转让销售率 


车型 

价 ( 美元） 

(%) 

Chevrolet Blazer LS 

轻便车 

19 495 

55 

Ford Explorer Sport 

轻便车 

20 495 

57 

GMC Yukon XL 1500 

轻便车 

26 789 

67 

Honda CR-V 

轻便车 

18 965 

65 

Isuzu VehiCross 

轻便车 

30 186 

62 

Jeep Cherokee Limited 

轻便车 

25 745 

57 

Mercury Mountaineer Monterrey 

轻便车 

29 895 

59 

Nissan Pathfinder XE 

轻便车 

26 919 

54 

Toyota 4 Runner 

轻便车 

22 418 

55 

Toyota RAV4 

轻便车 

17 148 

55 

Chevrolet S-10 Extended Cab 

小型卡车 

18 847 

46 

Dodge Dakota Club Cab Sport 

小型卡车 

16 870 

53 

Ford Ranger XLT Regular Cab 

小型卡车 

18 510 

48 

Ford Ranger XLT Supercab 

小型卡车 

20 225 

55 
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( 续表 ) 



建议零售 

转让销售率 


车型 

价(美元） 

(%) 

GMC Sonoma Regular Cab 

小型卡车 

16 938 

44 

Isuzu Hombre Spacecab 

小型卡车 

18 820 

41 

Mazda B4000 SE Cab Plus 

小型卡车 

23 050 

51 

Nissan Frontier XE Regular Cab 

小型卡车 

12 110 

51 

Toyota Tacoma Xtracab 

小型卡车 

18 228 

49 

Toyota Tacoma Xtracab V6 

小型卡车 

19 318 

50 

Chevrolet K2500 

大卡车 

24 417 

60 

Chevrolet Silverado 2500 Ext 

大卡车 

24 140 

64 

Dodge Ram 1500 

大卡车 

17 460 

54 

Dodge Ram Quad Cab 2500 

大卡车 

32 770 

63 

Dodge Ram Regular Cab 2500 

大卡车 

23 140 

59 

Ford FI 50 XL 

大卡车 

22 875 

58 

Ford F-350 Super Duty Crew Cab XL 

大卡车 

34 295 

64 

GMC New Sierra 1500Ext Cab 

大卡车 

27 089 

68 

Toyota Tundra Access Cab Limited 

大卡车 

25 605 

53 

Toyota Tundra Regular Cab 

大卡车 

15 835 

58 


a . 建立一个估计回归方程，在已知建议零售价格的情况下预测转让销售率 。在 a = 0 . 05 
的显著性水平下，检测统计显著性。 

b . ( a ) 中所建立的估计回归方程是否对数据给出了一个良好的拟合？解释原因。 

c . 建立一个估计回归方程，在已知建议零售价格和车型的情况下预测转让销售率。 

d . 利用 F 检验来确定回归结果的显著性，在 o :=0. 05的显著性水平下，可以得出什 
么结论？ 


案例研究1消费者调查有限公司 

消费者调查有限公司是一个独立的中介机构，它为很多不同的企业调查消费者意向和消费者 
行为。在一项调查中，某个客户为了预测信用卡用户的支付数额，要求调查消费者的行为特性。 
下面收集的数据显示了一个由50个消费者所组成的样本的年收入、家庭成员的人数以及信用卡年 
支付数额。统计数据如下页所示。 

管理报告 

1. 利用描述统计学的方法对这些数据进行整理、总结，并评论统计结果。 

2. 建立估计回归方程，首先利用年收入作为自变量，然后再利用家庭人数作为自变量。哪一 
个变量能够更好地预测信用卡年支付额。 

3. 建立一个估计回归方程，以年收入和家庭人数作为自变量，预测信用卡年支付额。对你的 
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发现进行讨论。 

4. 某个家庭，其人数为3人，年收入40000美元，则这个家庭信用卡年支付额的预测值是多少？ 

5. 讨论是否需要对这个模型添加其他的自变量。添加什么样的自变量会对模型的分析有所帮 
助？ 



CD 光盘数据 
Consumer 


年收入 

家庭 

信用卡年支 

年收入 

家庭 

信用卡年支 

( 千美元） 

人数 

付额 ( 美元） 

( 千美元） 

人数 

付额 ( 美元 ) 

54 

3 

4 016 

54 

6 

5 573 

30 

2 

3 159 

30 

1 

2 583 

32 

4 

5 100 

48 

2 

3 866 

50 

5 

4 742 

34 

5 

3 586 

31 

2 

1 864 

67 

4 

5 037 

55 

2 

4 070 

50 

2 

3 605 

37 

1 

2 731 

67 

5 

5 345 

40 

2 

3 348 

55 

6 

5 370 

66 

4 

4 764 

52 

2 

3 890 

51 

3 

4 110 

62 

3 

4 705 

25 

3 

4 208 

64 

2 

4 157 

48 

4 

4 219 

22 

3 

3 579 

27 

1 

2 477 

29 

4 

3 890 

33 

2 

2 514 

39 

2 

2 972 

65 

3 

4 214 

35 

1 

3 121 

63 

4 

4 965 

39 

4 

4 183 

42 

6 

4 412 

54 

3 

3 730 

21 

2 

2 448 

23 

6 

4 127 

44 

1 

2 995 

27 

2 

2 921 

37 

5 

4171 

26 

7 

4 603 

62 

6 

5678 

61 

2 

4 273 

21 

3 

3623 

30 

2 

3 067 

55 

7 

5301 

22 

4 

3 074 

42 

2 

3020 

46 

5 

4 820 

41 

7 

4828 

66 

4 

5 149 


案例研究2全美橄榄球联盟四分位等级排序 

全美橄榄球联盟 （ NFL ) 对参赛个人和球队每周的比赛成绩进行记录。这些数据可以通过访问 
NFL 的主页 ( ww . nfl . com ) 获得。对很多球迷而言，最有意义的统计资料莫过于四分位传球比赛表 
现的排名。下面的四项指标可以用于编辑四分位传球比赛表现的 排名： 

1. 每次进攻传球触地的比例 

2. 每次进攻传球到位的比例 

3. 每次进攻抢断成功的比例 



4. 每次进攻平均前进码数 
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为了说明怎么计算等级 排名： 我们可以考察 Steve Young ， 1997年 NFL 最优秀的四分位球选手 
的比赛表现。在1997年赛季 ， Steve Young 组织进攻356次传球，完成241次传球，共计前进3029 
码，并且19次触地，6次抢断。通过以下5步可以计算 Steve Young 传球 等级： 


步骤 1. 计算触地次数 (19) 所占组织进攻传球 (356) 的比例，所得比19/356 =0,0534。将这个结果 
除以 0. 05得到等级排序的触地分数，这个分数是 0.0534/0. 05 = 1. 068 0。 

步骤 2. 计算传球成功的次数 (241) 占组织进攻传球次数 (356) 的比率，所得比率为241/356 = 
0.677 0。将所得到的结果减去 0. 3,然后再除以0.2,可得等级排序的第二个分值， 
即： (0. 677 0-0. 3)/0. 2 = 1.885 0 o 

步骤 3. 计算抢断次数⑹所占组织进攻传球次数 (356) 的比率，所得比率为6/356=0.0169。用 
0.095 减去所得到的结果，然后再除以 0. 04,可得等级排序的抢断分值，8卩： (0.095-0 
.016 9)/0.04 = 1. 952 5 0 

步骤 4. 计算传球前进的码数 (3 029) 占组织进攻传球次数 (356) 的比率，所得比率为3 029/356 = 
8.5084。将所得到的结果减去3,然后再除以4,可得等级排序的传球前进码数分 
值 ，即： (8. 5084-3)/4 = 1.377 1 0 

步骤 5. 将第1步到第4步的分值加起来,再乘以100除以6,所得总和为 1.0680 + 1.8850 + 
1.952 5 + 1； 377 1 =6. 282 6。 
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然后将所得结果乘以100,再除以6即可得到 104. 710 0或者 104.7; 这个数值就 
是 NFL 所记录的关于 Steve Young 传球到位率等级排序的成绩。 

由 NFL 所记录的关于1997年赛季的统计数据资料位于 NFL 数据集合中，每一列 
的标题定义 如下： 


NFL 

Att 组织进攻传球的次数。 

Comp 传球成功的次数。 

Comp % 传球成功的次数除以组织进攻传球的次数，再乘以100。 

Yds 传球过程中前进的码数。 

Yds / Att 传球过程中前进的码数除以组织进攻传球的次数。 

TD 传球触地的次数。 

TD % 传球触地的次数除以组织进攻传球的次数，再乘以100。 

Long 传球成功的最长 距离。 

Int 抢断次数。 

Int % 抢断次数除以组织进攻传球的次数。 

Rating 四分位球传球到位等级排序。 
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管理报吿 

1. 利用描述统计学的方法对这些数据进行整理、总结，并对结果进行评论。 

2. 建立一个估计回归方程，在已知 Comp % 数值的情况下预测 Int %。 并对结果进行评论。 

3. 建立一个估计回归方程来预测四分位球传球到位等级排序。对你的预测结果进行讨论，并 
评论你所建立的估计回归方程与前面所给出的计算四分位球等级排序方法有什么样的关 
系。 

4. 如果 NFL 招聘你来计算明年的四分位传球排序等级，你将会使用什么样的方法呢？请解 
释原因。 


案例研究3对学生测验成绩进行预测 

为了预测一个学区学生的学习成绩和收人高低之间的关系 ， JTie Cincinnati Enquirer 收集了俄 
亥俄州教育管理服务局和俄亥俄州税务部门 （ 77 ie Cincinnati Enquirer ， November 30, 1997) 的相关数 
据。首先，他们从报纸上获得了 1996年上半年4年级、6年级、9年级以及12年级的数学、阅读 
理解、自然科学、写作和公民考试的成绩。通过将这些数据进行综合分析，他们得出了每一个学 
区通过测验的学生比例。 

他们同时也记录了学区的学生中，享受抚养儿童补助的学生比例、享受免费午餐或者 
降价午餐的学生比例，以及学区中等家庭的收人等资料。所收集的关于608个学区的部分数据如 
下 所示： 



CD 光盘数据 
Enquirer 


排名 

学区 

县 

通过比例 （％ ) 

ADC(%) 

免费午餐 ( ％ ) 中等家庭收入 ( 美元 ) 

1 

Ottawa Hills Local 

Lucas 

93 s . 85 

0. 11 

0.00 

4 8231 

2 

Wyoming City 

Hamilton 

93.08 

2. 95 

4. 59 

4 2672 

3 

Oakwood City 

Montgomery 92.92 

0. 20 

0.38 

4 2403 

4 

Madeira City 

Hamilton 

92.37 

1.50 

4.83 

3 2889 

5 

Indian Hill Ex Vill 

Hamilton 

91.77 

1.23 

2. 70 

4 4135 

6 

Solon City 

Cuyahoga 

90.77 

0.68 

2. 24 

3 4993 

7 

Chagrin Falls Ex Vill 

Cuyahoga 

89. 89 

0.47 

0.44 

3 8921 

8 

Mariemont City 

Hamilton 

89.80 

3.00 

2. 97 

3 1823 

9 

Upper Arlington City 

Franklin 

89.77 

0. 24 

0.92 

3 8358 

10 

Granville Ex Vil 

Licking 

89. 22 

1. 14 

0. 00 

3 6235 
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数据的排名是根据“通过比例（％)”数字的大小来排列的，这一列的数据即为通过测验的学 
生的总体比例。以 “ ADC (%)” 为列标题的数据是每个学区享受抚养儿童补助的学生比例，以 
“免费午餐(％)”为列标题的数据是每个学区享受免费午餐或者降价午餐的学生比例，以“中等 
家庭收入”为列标题的数据表示的是每个学区中等家庭的收入。数据还给出了每一个学区所属的 
县。请注意，在某些情况下，“免费午餐（％)”的数据为0,这表明这个学区没有学生参与享受 
免费午餐或者降价午餐 计划。 

管理报吿 

利用本章和前面章节所介绍的方法来分析这个数据集合，请在管理报告中简要介绍一下你的 
分析结果，包括关键的统计指标结果、结 i 仑以及建议。你所需要的技术资料可以在附录里面查 
找。 


案例研究4 Alumni 基金会 

Alumni 基金是学院和大学预算的一项重要来源。如果学校的管理人员能够按照该基金的要求 
提高某些办学指标，则这个基金将会加大对这所学校的捐赠力度，从而提高该校的预算。研究表 
明如果学生对他们的老师的教育很满意的话，学生就会更加容易顺利毕业。因此，如果班级人数 
减少，学生与老师的人数比例降低的话，学生的毕业率会更高，因而也会导致 Alumni 基金加大对 
这所学校的投入。在表 15. 11中，标题“毕业率”表示的是这所大学招收并毕业的学生人数。标 
题“人数在20以下的班级比例”表示的是班级人数在20以下的班级所占班级总数的比例。“学 
生和老师比”表示的是所招收的学生人数除以全体老师的人数。最后的“校友捐赠率”表示的是 
这个基金所捐赠的金额占学校预算的比例。 

管理报告 

1. 利用描述统计学的方法对这些数据进行整理、总结。 

2. 建立一个估计回归方程，在已知毕业学生数量的情况下预测基金的捐赠率。并对结果进行 
评论。 

3. 建立一个估计回归方程，根据这些数据预测基金的捐赠率。 

4. 从你的分析中可以得出什么结论或者建议？ 
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表 15. 11 关于美国 48 所州立大学的数据 



CD 光盘数据 
Alumni 



州 

毕业率 

人数在 20 
以下的班级 
比例 （％) 

学生和老 
师比 

校友捐 
赠率（％ 

Boston College 

MA 

85 

39 

13 

25 

Brandeis University 

MA 

79 

68 

8 

33 

Brown University 

RI 

93 

60 

8 

40 

California Institute of Technology 

CA 

85 

65 

3 

46 

Carnegie Mellon University 

PA 

75 

67 

10 

28 

Case Western Reserve Univ. 

OH 

72 

52 

8 

31 

College of William and Mary 

VA 

89 

45 

12 

27 

Columbia University 

NY 

90 

69 

7 

31 

Cornell University 

NY 

91 

72 

13 

35 

Dartmouth College 

NH 

94 

61 

10 

53 

Duke University 

NC 

9? 

68 

8 

45 

Emory University 

GA 

84 

65 

7 

37 

Georgetown University 

PA 

91 

54 

10 

29 

Harvard University 

MA 

97 

73 

8 

46 

Johns Hopkins University 

MD 

89 

64 

9 

27 

Lehigh University 

PA 

81 

55 

11 

40 

Massachusetts Inst, of Technology 

MA 

92 

65 

6 

44 

New York University 

NY 

72 

63 

13 

13 

Northwestern University 

IL 

90 

66 

8 

30 

Pennsylvania State Univ. 

PA 

80 

32 

19 

21 

Princeton University 

NJ 

95 

68 

5 

67 

Rice University 

TX 

92 

62 

8 

40 

Stanford University 

CA 

92 

69 ( 

7 

34 

Tufts University 

MA 

87 

67 

9 

29 

Tulane University 

LA 

72 

56 

12 

17 

U. of California - Berkeley 

CA 

83 

58 

17 

18 

U. of California - Davis 

CA 

74 

32 

19 

7 

U. of California - Irvine 

CA 

74 

42 

20 

9 

U. of California - Los Angeles 

CA 

78 

41 

18 

13 

U. of California - San Diego 

CA 

80 

48 

19 

8 

U. of California - Santa Barbara 

CA 

70 

45 

20 

12 

L . of Chicago 

IL 

84 

65 

4 

36 

U. of Florida 

FL 

67 

31 

23 

19 

U. of Illinois - Urbana Champaign 

IL 

77 

29 

15 

23 

U. of Michigan - Ann Arbor 

MI 

83 

51 

15 

13 

U. of North Carolina - Chapel Hill 

NC 

82 

40 

16 

26 

U. of Notre Dame 

IN 

94 

53 

13 

49 

U. of Pennsylvania 

PA 

90 

65 

7 

41 

U. of Rochester 

NY 

76 

63 

10 

23 

U. of Southern California 

CA 

70 

53 

13 

22 

U. of Texas - Austin 

TX 

66 

39 

21 

13 

U. of Virginia 

VA 

92 

44 

13 

28 

U. of Washington 

WA 

70 

37 

12 

12 

U. of Wisconsin - Madison 

WI 

73 

37 

13 

13 

Vanderbilt University 

TN 

82 

68 

9 

31 

Wake Forest University 

NC 

82 

59 

11 

38 

Washington University - St. Louis 

MO 

86 

73 

7 

33 

Yale University 

CT 

94 

77 

7 

50 





回归分析：建立模型 


统计 实例： 孟山都公司 
16. 1 一般线性模型 

模拟曲线关系 
交互作用 

包含因变量的转换 
内涵线性的非线性模型 

16.2 增加或者删除变量的时间确定 

一般情形 
值的应用 

16.3 大型问题分析 
16.4 变量选择方法 
逐步回归 
前向选择 
- 后向消元 
最佳子集回归 
最终选择 
16. 5残差分析 

自相关性和杜宾-瓦特森检验 
16.6 关于方差分析和试验设计的多元回归方法 
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孟山都公司 * 

圣路易斯，密苏里州 

孟山都 （ Monsanto ) 公司的历史可以追溯到一位 
创业者500美元的投资和一间尘土飞杨的仓库，在 
那里 ， John F . Queeney 于1901年开始生产糖精， 
如今，孟山都公司已经成为全国最大的化学公司之 
一， 生产从工业用化学品到现代体育馆用的合成运 
动地面在内的一千多种产品。孟山都公司作为一个 
跨国公司，其生产设备、实验室、技术中心和营销 
机构遍布65个国家。 

孟山都公司的营养化工部生产和销售一种氨基 
酸补充物用于饲养禽类及猪牛等家畜，由于家禽饲 
养者的工作量大，但是边际效益低，因此他们需要 
高效而且尽可能富含养分的家禽饲料。对于一定水 
平的饲料消化水准，高效的养分组成能够使肉鸡生 
长迅速，体重迅速增加。为了优化家禽饲料，化工 
企业与家禽饲养者紧密合作，最终的成功取决于能 
否将家禽的价格保持在低于牛肉和其他肉类的价格 
水平。 

孟山都公司利用回彡 3 分析将肉鸡体重 y 与家禽 
饲料中所添加的氨基酸数量％之间的关系建立了模 
型，最初所建立的简单线性估计回归方程式如下所 
示： 

y = 0.21 +0. 42 x 

这个估计回归方程式证明了统计的重要性，然而， 
对残差的分析表明曲线关系可以更好地模拟肉鸡体 
重和氨基酸之间的关系。 


* 作者衷心感谢 Monsanto 营养化工部的资深研究专家 
James H . Ryland 和 Robert M . Schisla 提供这一统计实例。 



Monsanto 的科研工作者利用回归分析为家禽饲养开发最 
优化的饲料养分组成。⑧ PhotoDisc ， Inc . 


进一步的研究表明，虽然少量的氨基酸能够增 
进家禽体重，但是超过某一限度时，体重将减小， 

多余的氨基酸量对于家禽体重的增加仅有微弱的或 
者根本没有作用，事实上，当氨基酸的增长超过营 
养需要的极限时，体重反而下降。下面的估计多元 
回归方程可以模拟家禽体重和氨基酸数量之间的曲 
线关系。 

7= - 1. 89 + 1.32无 -0.506/ 

回归分析的结果应用使得孟山都公司确定了家 
禽饲料产品中最理想的氨基酸含量水平。 

在本章中，我们将通过介绍如何建立曲线模 
型，比如孟山都公司所应用的那种，来扩展回归分 
析的讨论，除此之外，我们还将描述一系列方法， 
这些方法有助于确定哪一个自变量会导致最优的估 
计回归方程。 


建模是一个建立估计回归方程的过程，经过这一过程，我们可以得到描述一个因变量和一个 
或者多个自变量之间关系的估计回归方程。建模的主要结果应该是找到合适的函数形式来描述变 
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量之间的关系，并且选择该模型所应包含的自变量。在 16.1 节中，我们通过引人一般线性模型的 
概念确立了建模过程的基本框架。 16. 2节则介绍了确定什么时候增加或者删除自变量的一般性方 
法，为更加复杂的以计算机为基础的处理方法提供了基础。在 16. 3节中，我们考察了一个涉及到 
8个自变量和25组观测值的更为大型的回归问题，该问题被用来解释 16.4 节中的变量选择步 
骤，包括逐步回归过程、前进选择过程、后向消元过程和最佳子集回归。在 16.5 节中，我们阐述 
了如何利用杜宾-瓦特森 ( Durbin - Watsoxi ) 检验来检测序列相关或者自相关。在 16.6 节中，我们阐 
述了如何利用回归分析来进行方差分析和处理试验设计问题。 


16. 1 —般线性模型 

假设我们已经收集了针对因变量 y 和&个 自变量^的数据，我们的目标是利用 
这些数据建立一个估计回归方程，用它来给岀因变量和自变量之间的最佳关系。我们引人了包含 
p 个 自变量的 一般线性模型 (general linear model ) 概念，作为在自变量之间建立更加复杂关系的一 
般性框架。 


如果可以将回归模型写成公式 （16.1) 的形式，则我们可以应用第15章中所述的标准 
多元回归分析方法。 



一般线牲摸型 




y — po + p\Z\ + 房 Z 2 + …+ ppZp + g 

(16.1) 


在公式 （16.1) 中，每一个因变量 d 其中）= 1，2,…， />) 均为心，处，… ，心 (所采集的数据 
即为这些变量）的函数。在某些情况下，每一个 z , •有可能仅为一个％变量的函数。最简单的情形 
即只对一个变量^收集数据，并且利用一个直线线性关系去估计 y 。 这种情况下，^ = ^并且公 
式 （16. 1) 变成如下 形式： 


y = j 3 o + / 3 i xi + e (16.2) 

公式 （16. 2) 即为第 14 章中介绍的简单线性回归模型，不同的是自变量是以〜表示而非& 
在统计模型文献中，这一模型被称为 含单个预测变量的简单一阶模型。 


模拟曲线关系 



CD 光盘数据 
Reynolds 


我们可以用公式 （16. 1) 来模拟形式更加复杂的关系。为了说明这一点，我们可以 
参考 Reynolds 公司（工业用天平和试验设备生产商)所面临的问题，该公司的管理者计 
划对公司的销售人员工作年限长短和电子试验设备的销售量之间的关系进行研究。表 
16.1 给岀了随机抽取的15名销售人员在最近销售期所销售的天平数以及每个销售人 



表 16. 1 雷罗兹公司示例数据 

400 

雇佣月数 

销售额 

41 

375 


106 

296 

300 

76 

317 


10 

376 





參 






參 




參 • 




籲 
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40 60 80 

雇佣月数 


100 120 


图 16. 1 雷罗兹公司示例的散点图 
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员被公司所雇用的年限。图 16. 1给出的是这些数据点的散点图。该图表明，在雇佣年限的长短和 
销售量之间可能存在曲线关系。在考虑如何为 Reynolds 公司建立曲线关系模型之前，让我们首先 
考虑图 16.2 中相对应于简单一阶模型的 Minitab 计算机输出结果，估计回归方程如下 所示： 

Sales = 111+2. 38 Months 

式中 Sales ——电子试验天平的销售量(销售 额）； 

Months ——销售人员被雇用的月数(雇佣月数)。 


The regression equation is 


Sales = 111 

+ 2.38 Months 




Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

111.23 

21.63 

5.14 

0.000 


Months 

2.3768 

0.3489 

6.81 

0.000 


s = 49.52 

R-sq 

= 78.1% 

R - sq(adj)= 

= 76.4% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

113783 

113783 

46.41 

0.000 

Error 

13 

31874 

2452 



Total 

14 

145657 





00 


c 


销售额 


6 5 6 0 8 3 
113 3 12 


3 2 7 5 9 
8 16 2 8 


22510192669 
2 18 14 5 1 51 


图 16.2 雷罗兹公司例子的 Minitab 计算机输出结果 
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图 16. 3是相应的标准化残差图。虽然计算机输出结果表明存在显著关系 （/> -值 =0.000), 而 
且线性关系解释了大部分的销售量变异性 （ R-sq = 78. 1%),但是标准残差图依然表明我们有必要 
研究曲线关系。 


标准残差 



0. 0 + • • 

_ 


- 1.2 + 





-+-+-+-+-+- y 

150 200 250 300 350 

图 16.3 雷罗兹公司示例的标准残 差图： 一阶模型 

为了表明曲线关系的存在，我们令公式 （16.1) 中的 = & = 于是得到 模型： 

y = / 3 o + p \ xi pix ] + e (16.3) 

这个模型被称为 含一个预测变量的二阶模型 D 为了建立与这个二阶模型所对应的估计回归方程， 
我们所使用的统计软件包需要表 16. 1中的原始数据，同时也需要添加第二个自变量所对应的数 
据，即销售人员被公司所雇用月数的平方。在图 16.4 中，我们给出了对于二阶模型的 Minitab 输 
出结果，估计回归方程 如下： 

Sales = 45. 3+6. 34 Months - 0. 034 5 MonthsSq 

式中， MonthsSq 为销售人员被公司雇用的月数的平方。 

MonthsSq 自变量的数据是将 Months 平方而得。 


图 16. 5是相应的标准残差图，前面的曲线已经被移除。在 0.05 的显著性水平下，计算机输 
出结果表明总体模型是显著的 （ F 检验的 P - 值为 0.000); 同时我们还注意到对应于 MonthsSq 
( p -值为 0.002) 的 i 检验的 />- 值比 0.05 要小，因此，我们可以得出 结论： 在含变量 Months 的 
模型中所添加的变量 MonthsSq 是显著的。因为 R _ sq ( adj ) 的值为 88. 6%，所以我们应该对这个 
估计回归方程所提供的拟合感到高兴。然而，更重要的是我们看到了在回归分析中处理曲线关系 
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The regression equation is 


Sales = 45 . 3 

+ 6.34 Months - 0.0345 MonthsSq 



Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

45.35 

22.77 

1.99 

0.070 


Months 

6.345 

1.058 

6.00 

0.000 


MonthsSq - 

0.034486 

0.008948 

-3.85 

0.002 


s = 34.45 

R-sq 

= 90.2% 

R-sq(adj)= 

88.6% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

2 

131413 

65707 

55.36 

0.000 

Error 

12 

14244 

1187 



Total 

14 

145657 





图 16.4 雷罗兹公司示例的 MINITAB 输出 结果： 二阶模型 

是多么轻松的一件工作。 

显然，许多类型的关系均可以通过公式 （16. 1) 来模拟，我们在工作中所使用的回归方法并不 
仅仅局限于线性或者直线关系。在多元回归分析中，线性这个词在术语“一般线性模型”中仅指 
这样一种事实：锋， j 8 i ， …，岛均为一次幂，它并不意味着 y 和％.之间呈线性关系。事实上，在 
本节中，我们已经看到公式 （16.1) 是怎样被用于模拟曲线关系的一个例子。 


标准残差 
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图 16.5 雷罗兹公司示例的标准残差散 点图： 二阶模型 
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交互作用 

如果原始数据集合由因变量 y 和两个自变量&的观测值组成，在一般线性模型公式 
(16. 1) 中，我们令 Zl = %1，& =免，& 并且& = a 幻，这样就可以建立一个含两个自变量 

的二阶模型，所得到的模型 如下： 

y = /3o + p\ X[ + ^ 2 X 2 + 1^3 x 2 \ + ^ xl + ^5 Xi X 2 + £ (16. 4) 

在这个二阶模型中，为了说明两个变量相互作用所产生的影响，我们添加了一个变量 Z 5 = :^ 2 。 
这种影响被称为交互作用 （ interaction ) 0 

为了说明交互作用以及它的意义，让我们来考察一下 Tyler Personal Care 公司对它的一种新型 
洗发产品所作的回归研究。他们认为对销售量影响最大的两个因素是单位销售价格和广告支出。 
为了调查这两个变量对销售的影响，在24家试验商店中，价格为 2.00 美元、 2. 50美元和 3.00 
美元的产品广告费用支出分别为50 000美元和100 000美元，我们将所观测到的销售量（单位千 
瓶)记录于表 16. 2中。 


表 16. 2 Tyler Personal Care 公司例子的数据 



CD 光盘数据 
Tyler 


价格 

广告支出 

销售量 

价格 

广告支出 

销售置 

(美元） 

(千美元） 

(千瓶） 

(美元） 

(千美元） 

(千瓶） 

2.00 

50 

478 

2. 00 

100 

810 

2,50 

50 

373 

2. 50 

100 

653 

3.00 

50 

335 

3. 00 

100 

345 

2. 00 

50 

473 

2.00 

100 

832 

2. 50 

50 

358 

2. 50 

100 

641 

3.00 

50 

329 

3.00 

100 

372 

2, 00 

50 

456 

2.00 

100 

800 

2.50 

50 

360 

2. 50 

100 

620 

3.00 

50 

322 

3.00 

100 

390 

2.00 

50 

437 

2. 00 

100 

790 

2. 50 

50 

365 

2.50 

100 

670 

3.00 

50 

342 

3.00 

100 

393 


表 16. 3是这些数据的总结。请 注意： 对应销售价格为 2. 00美元，广告费用为50 000美元的 
平均销售数量为461 000瓶，对应销售价格为 2.00 美元，广告费用为100 000美元的平均销售量 
为808 000瓶。因此，在销售价格保持 2. 00美元不变时，广告费用50 000美元和100 000美元所 
造成的平均销量差是808 000-461 000 = 347 000瓶。当产品销售价格为 2. 50美元时，平均销售 
量之差为646 000 -364 000 = 282 000瓶。最后，当产品销售价格为 3. 00美元时，平均销售量之 
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差为375 000 -332 000 =43 000瓶。显然，广告费用为50 000美元和100 000美元时，平均销售 
量之差取决于产品销售价格。换句话说，当销售价格处于较高价位时，广告费用支出的增加所带来的 
销量增加的影响将减小。这些观察数据提供了价格和广告费用支出这两个变量交互作用的证据。 

表 16. 3 Tyler Personal Care 公司的平均销售量（千瓶） 


广告支出 50 000 美元 
广告支出 100 000 美元 


100( 美元) 
461 


价格 

2.50( 美元) 
364 


3.00( 美元) 

332 


808 


646 375 

当价格 =2.00 美元、广告支出 =100 000 美 
元时，平均销量为 808 000 瓶。 



为了给出交互作用的另一方面影响，图 16. 6显示了 6种不同的销售价格一广告费用组合的平 
均销售量。该图同时还表明了广告费用支出对平均销售量的影响依赖于价格 水平； 我们再一次看 
到了交互作用的影响。当两个变量之间存在交互作用时，我们不能排除其他变量而去单独考察某 
一个变量对因变量 y 的影响。换句话说，只有考虑两个变量对因变量的联合影响时，我们才能获 
得有意义的结论。 

为了说明交互作用的影响，我们可以利用下面的回归 模型： 

y = / 3 o / 3 \ x \ P2X2 + ^ iX\xi s (16. 5) 


式中 y ——销售量（千 瓶）； 

^ ——销售价格（美 元）； 

^——广告费用支出（千美元)。 

请注意，公式 （16. 5) 反映了 Tyler 公司相信销售量和销售价格、广告支出线性相关（由饵^， 
项即可说明），而且这两个变量之间存在交互作用（由啟项说明）。 

为了建立估计回归方程，我们可以利用含3个自变量（ 2| ，&， &) 的一般线性模型： 

7 = /So + Zi + /?2 Z 2 + )& Z 3 + e (16. 6) 


式中 

Z2 = ^2 ； 

Z3 = X\ X2 o 

图 16.7 是对应于 Tyler 个人日用品公司例子交互作用模型的 Minitab 输出结果，所得到的估计 
回归方程 ： Sales = _ 276 + 175 Price + 19. 7 AdvExp - 6. 08 PriceAdv 

式中 Sales -销售量（千瓶）； 

Price -—产品销售价格（美 元）； 
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2. 00 2. 50 3.00 

销售价格（美元） 

图 16.6 平均销置是销售价格和广告费用支出的函数 

因为对应于交互作用项 PriceAdv 的 i 检验的 p - 值为0.000，我们可以得出 结论： 在产品价 
格和广告支出的线性影响下交互作用是显著的。因此，回归结果显示广告费用支出对销售量的影 
响取决于价格。 

包含因变量的转换 

在说明怎样利用一般线性模型模拟自变量和因变量之间各种可能的不同类型的关系时，我们致 
力研究涉及到一个或多个自变量的转换，通常考虑包含因变量/的转换问题是有价值的。对于什么 
时候应该变换因变量的解释，我们可以考虑表 16.4 中关于12种汽车的英里/加仑定额和重量的数 


AdvExp -广告费用支出（千美元）； 

PriceAdv -交互作用项（价格 x 广告支出）。 

900 - 

100 000美元 
800 - ? 
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The regression equation is 

Sales = - 276 + 175 Price + 19.7 AdvExp - 6.08 PriceAdv 


Predictor 

Coef 

St dev 

t-ratio 

P 

Constant 

-275.8 

112.8 

-2.44 

0.024 

Price 

175.00 

44.55 

3.93 

0.001 

Adver 

19.680 

1.427 

13.79 

0.000 

PriceAdv 

-6.0800 

0.5635 

-10.79 

0.000 

s = 28.17 

R-sq 

= 97.8% 

R-sq(adj) 

= 97.5% 

Analysis of 

Variance 




SOURCE 

DF 

SS 

MS 

F 

Regression 

3 

709316 

236439 

297.87 

Error 

20 

15875 

794 


Total 

23 

725191 




P 

0.000 


图 16. 7 Tyler Personal Care 公司例子的 Minitab 输出结果 



CD 光盘数据 


据。散点图 16. 8表明了在这两个变量之间存在负线性关系，所以我们利用一个简单一阶 
模型将这两个变量联系起来。图 16. 9是 Minitab 输出结果，所得到的估计回归方程 如下： 

MPG = 56. 1 -0.011 6 Weight 


MPG 

式中 MPG ——英里/加仑 定额； 
表 16. 4 12种汽车的 Weight -汽车的重量（磅）。 


英里/加仑定额和重量 


重量 

英里 / 加仑定额 

2 289 

28.7 

2 113 

29.2 

2 180 

34.2 

2 448 

27.9 

2 026 

33.3 

2 702 

26.4 

2 657 

23.9 

2 106 

30.5 

3 226 

18. 1 

3 213 

19.5 

3 607 

14.3 

2 888 

20.9 


这个模型是显著的 （ F 检验的 p - 值为0.000)。而且拟合度也很优 
良 （ R-sq = 93.5%)。 但是我们注意到图 16.9 中第3个观测值有较大标 
准残差。 

图 16. 10是对应于一阶模型的标准残差图。如果关于误差项的假设 
成立，那我们所希望看到的应该是一条水平带状图，但实际所观测到的 
并非这样。相反，残差的变异性看起来随着：？的增加而增加。换句话 
说，我们所看到是在第14章和第15章中被认为是存在非常数方差标志 
的楔型图。由于关于显著性检验的基本假设看来并未得到满足，因此我 
们缺乏足够的理由推出关于估计回归方程统计显著性的任何结论。 

• 通常非常数方差问题是可以通过对因变量做一个不同比例变换来修 
正的。例如，如果我们用因变量的对数来替换原来的因变量，这样做的 
效果将是压缩因变量的值，从而减小了非常数方差的影响。大多数的统 
计软件包均提供对数转换的功能，或者以10为底（常用对数），或者以 


e = 2.718 28 …（自然对数）为底，等等。我们对英里/加仑定额数据应用 
了自然对数转换，并且建立了英里/加仑定额的自然对数相关于重量的估计回归方程。图 16.11 
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01 1 I I > 1 I I > I 

2 000 2 200 2 400 2 600 2 800 3 000 3 200 3 400 3 600 3 800 

重量（镑） 

图 16. 8 英里/加仑问题的散点图 


The regression equation is 
MPG = 56.1 - 0.0116 Weight 


Predictor 

Coef 

St dev 

t-ratio 

P 


Constant 

56.096 

2. 

.582 

21.72 

0.000 


Weight -0. 

0116436 

0.0009677 

-12.03 

0.000 


s = 1.671 

R - sq 

= 93.5% 


R-sq(adj) 

= 92.9% 


Analysis of Variance 






SOURCE 

DF 

SS 


MS 

F 

P 

Regression 

1 

403.98 


403.98 

144.76 

0.000 

Error 

10 

27.91 


2.79 



Total 

11 

431.88 





Unusual Observations 






Obs. Weight 

MPG 

Fit 

Stdev.Fit 

Residual 

St.Resid 

3 2180 

34.200 30 

.713 

0.644 

3 .487 

2.26R 


R denotes an obs. with a large st. resid. 


显示了以英里 / 加仑定额的自然对数作自变量，以 LogeMPG 作输出标签的回归结果。图 16. 12为 
相对应的标准化残差图。 
















28 


英里/加仑定额 


图 16. 9 英里 / 加仑定额问题的 Minitab 输出结果 
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标准 

残差 


1 . 




0.0 + 


-1.5 + 




14.0 17.5 21.0 24.5 28.0 31.5 

图 16. 10 英里/加仑定额问题的标准残差图 


The regression equation is 
LogeMPG =4.52 -0.000501 Weight 


Predictor Coef Stdev t-ratio p 


Constant 

4.52423 

0.09932 

45.55 

0.000 


Weight - 0. 

00050110 

0.00003722 

-13.46 

0.000 


s = 0.06425 

R-sq = 

94.8% 

R-sq(adj) 

= 94.2% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 0. 

74822 

0.74822 

181.22 

0.000 

Error 

10 0. 

04129 

0.00413 



Total 

11 0. 

78950 





图 16. 11 英里 / 加仑定额问题的 Minitab 输出 结果： 对数转换 

请看图 16. 12中的残差散点图，我们现在看到楔形图已经消失了。除此之外，没有一个观测 
值具备较大的标准化残差。以英里/加仑定额的对数作因变量的模型在统计上是显著的，并且对 
观测数据提供了一个优良拟合。因此，我们可以推荐使用估计回归 方程： 


LogeMPG = 4. 52-0. 000 501 Weight 

为了估计重2 500磅的汽车英里/加仑的定额，我们首先求出一个英里/加仑定额的对数估 计值: 

LogeMPG =4. 52-0. 000 501(2 500) = 3. 267 5 
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标准 

残差 





0.0 + 



- 1.2 + • 



-+-+- + — - — — — — +- + - — - — - - h - y 

2.70 2. 85 3.00 3.15 3.30 3.45 

图 16. 〗2 英里 / 加仑定额问题的标准残 差图： 对数转换 

通过求自然对数值为 3. 267 5的数值，我们可以得到英里/加仑定额的估计。利用带指数功能的计 
算器，或者计算 e 的 3. 267 5次幂，我们得到定额为 26. 2英里每加仑。 

解决非常数方差问题的另一个途径是用 l / y 来代替 y 作因变量。这种类型的变换被称为倒数 
变换。例如，如果因变量的单位是英里/加仑，那么倒数变换将得到新的因变量，这个新的因变 
量的单位是 1/( 英里/加仑）或加仑/英里。通常说来，如果不实际尝试一下，对数变换和倒数变 
换这两种方法是难以区分优劣的。 


内涵线性的非线性模型 

模型里面的参数（炀 ，奸， …， ft ) 的幂如果超过一次的，则这种模型被称为非线性模型。然 
而，对指数模型而言，我们可以通过对变量进行变换将模型转换成公式 （16. 1) 的一般线性模型形 
式，这样我们就可以对它进行回归分析。指数模型与下面的回归方程 有关： 

E ( y )=_ (16.7) 

这种模型适合如下 情形： 即因变量 y 随着％的增加以一个固定百分比增加或减少，而不是以一个 
固定数量增加或减少。 

举个例子，假设某种产品的销售量 y 取决于广告费用4千美元），该问题所对应的指数模型 
如下： 


E ( y ) =500(1.2” 


于是，对 x = l ， E ( y ) =500(1. 2) 1 =600;对％ = 2， E ( y ) =500 (1.2) 2 =720; x =3, E { y )= 
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500 (1.2) 3 = 864。请注意，在这种情况下， £；( y ) 不是按一个固定数量增加，而是按一个固定百 
分比 增加： 所增加的百分比是20%。 

我们可以通过对公式 （16. 7) 两边取对数，将这个非线性模型转化成一个线性模型 

logE ( y ) = log^So + x \ og ^\ (16. 8) 

现在如果我们令/ = log £( r ), A'=log 烊，我们将公式 （16. 8) 改写成 

y r = ( 30 ( + 13 / x 

显然，我们可以利用简单线性回归公式得岀烽'和的估计量。以 6( /和6/表示估计量，可得下 
面估计的回归 方程： 

? : W + b' r x (16.9) 

为了在已知％值的情况下求得原来的因变量 y 的预测值，我们可以先将％的值代入公式 （16. 9) 计 
算 ff 的反对数即为我们所要求的 y 的观测值或 y 的期望值。 

许多非线性模型无法被转换成一个等价的线性模型。这类模型已经限制了我们在商业和经济 
中的应用，而且研究此类模型所需的数学背景超岀了本书的讨论范围。 



方法 



自测题 


变量％， y 有下列数据: 


X 

22 

24 

26 

30 

35 

40 

y 

12 

21 

33 

35 

40 

36 


a . 建立一个估计回归方程，方程形式为 ： y = 6 0 + b \ x 0 

b . 利用 （ a ) 中的结果，在 a = 0. 05的显著性水平下， 检验％ 和 y 之间的显著性关系。 

c . 画出关于这些数据的散点图，散点图所对应的方程形式是否为{=6。+6^+6 2 /形式？解释 
原因。 

d . 建立一个估计回归方程，方程形 式为 ： f = 6。+ 

e . 考察 ( d ) 中的方程，在 a =0.05 的显著性水平下， n 2 和 y 之间的关系在统计上是否显著？ 

f . 当 x =25 时，预测 y 的数值。 

2.变量％， y 有下列 数据： 


X 

9 

32 

18 

15 

26 

y 

10 

20 

21 

16 

22 
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a . 建立一个估计回归方程，方程形式为： bo + lhx 0 这个方程对 y 预测的精确性如何？ 

b . 建立一个估计回归方程，方程形 式为汐 = 6 o + 6^+ 6 a 2 。 这个方程对 y 预测的精确性如何？ 

c . 当％ = 20时，预测 y 的数值。 

3.变量 X ， y 有下列 数据： 


X 

2 

3 

4 

5 

7 

7 

7 

8 

9 

y 

4 

5 

4 

6 

4 

6 

9 

5 

11 


a . x 和 y 之间是否存在线性关系？解释原因。 

b . 建立关于； c 和 y 的估计回归方程。 

c . 画出 （ b ) 中方程关于 {的标 准残差图，模型的假设是否得到满足？解释原因。 

d . 对因变量 y 作对数变换，利用变换以后的因变量建立估计回归方程，利用转换过的因变量 
是否能够满足模型假设？对于这种情形，倒数转换是否更为适合？解释原因。 


应用 

4. 某公路管理部门对交通流量和车辆速度之间的关系进行了研究，所建立的假设模型如下 所示: 

y = / 3 o + /3ix + e 

式中 J ——每小时的车辆交通 流量； 
x ——车速（英里/小时）。 

下面的数据是在交通高峰时段进出城市的6个公路道口所收 集的： 


交通流量 （ y ) 

车辆速度 U ) 

1 256 

35 

1 329 

40 

1 226 

30 

1335 

45 

1 349 

50 

1 124 

25 


a . 对这些数据建立估计回归方程。 

b . 在 a =0.01 的显著性水平下，检验显著性关系 


5. 



自测题 


对练习4中的问题作进一步研究，我们建议利用以下的曲线估计回归方程对统计数据 
进行分析。 


y = bo + b\x + bix 2 

a . 利用练习4中的数据，估计这个估计回归方程的参数。 

b . 在 a =0. 01的显著性水平下，检验显著性关系。 
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c . 如果车速为38英里每小时，请估计每小时的交通流量。 


6. 在一项关于紧急服务交通工具的研究中，我们调查了交通工具的数量和提供紧急服务的平均距 
离 （Management Science ， July 1988) 。下表给出了所收集的数据： 


交通工具数置 
9 
11 
16 
21 
27 
30 


平均距离（英里 ) 
1.66 
1. 12 
0. 83 
0. 62 
0.51 
0.47 


a . 建立关于这些数据的散点图，将平均距离作为因变量。 

b. 简单线性模型是否适于这种情形？解释原因。 

c . 对这些数据建立一个估计回归方程，尽可能准确地解释这两个变量之间的关系。 




CD 光盘数据 
Beer 


下面的数据是10种主打啤酒品牌的媒体广告支出（百万美元）和销售量（百万桶) 
( Superbrands ， 98, October 20, 1997) : 


品牌 

媒体广告支出（百万美元） 

销售量 ( 百万桶 ) 

Budweiser 

120.0 

36.3 

Bud Light 

68.7 

20.7 

Miller Lite 

100. 1 

15.9 

Coors Light 

76.6 

13.2 

Busch 

8.7 

8, 1 

Natural Light 

0 . 1 

7. 1 

Miller Genuine Draft 

21.5 

5.6 

Miller High Life 

1.4 

4.4 

Busch Light 

5.3 

4.3 

Milwaukee’s Best 

1.7 

4.3 


a . 建立关于这些数据的散点图，将媒体广告支出作为因变量。 

b . 简单线性模型是否适于这种情形？ 

c . 对这些数据建立一个估计回归方程，尽可能准确地解释这两个变量之间的关系 


8 . 



CD 光盘数据 


Internet 


在欧洲，每个囯家互联网用户的数量都有很大的不同。在1999年，44.3%的瑞典人 
使用互联网，但是在法国人数就减少了 10%。虽然互联网的应用预计在未来几年内将 
会有大大地增长，但是各国之间的用户数量差异依然会保持下去。下表显示的是欧洲 
国家1999年互联网用户数量和预计2005年的用户数量： 
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9. 



CD 光盘数据 
WindGolf 



1999 年互联网用户数置(％ ) 

预计 2005 年的用户数置(％ ) 

奥地利 

12.6 

53.4 

比利时 

24.2 

60.2 

丹麦 

40.4 

71.2 

芬兰 

40.9 

71.4 

法国 

9.7 

53. 1 

德国 

15.0 

59.6 

希腊 

3.4 

15.8 

爱尔兰 

12. 1 

46.7 

意大利 

8.4 

34.4 

荷兰 

18.6 

61.4 

挪威 

38.0 

71.7 

葡萄牙 

4.63 

36.6 

西班牙 

7.4 

39.9 

瑞典 

44,3 

71.9 

瑞士 

28. 1 

66.7 

英国 

23.6 

66.8 


a . 建立关于这些数据的散点图，将1999年互联网用户数量比率作为因变量。简单线 
性模型是否适于这种情形？对此进行讨论。 

b . 建立估计多元回归方程，以 x = 1999 年互联网用户数量和 /作为 两个自变量。 

c . 考察公式 （16. 7) 所显示的非线性关系，利用对数变换建立关于该模型的估计回归方程。 

d . 对于 ( b ) 和 （ c ) 中所建立的估计回归方程，你认为哪一个更为合适？解释原因。 

在一项关于顺风和逆风对高尔夫球飞行距离影响的研究中， Titleist 发现在顺风条件下 
高尔夫球飞行距离会略为 增加； 在逆风条件下，风速越大则高尔夫球飞行距离会越小 
(Golf Magazine , March 1997) 0 假设在持续不断的研究中，我们在各种风速中击打高尔 
夫球，所得数据如下。在这些数据中，风速以英里每小时 测量； 负值表示逆风，正值 
表示顺风，距离表示的是高尔夫球飞行滚动的码数。 


风速 

距离 

风速 

距离 

-30 

202 

0 

269 

-30 

211 

10 

273 

-30 

206 

10 

286 

-20 

221 

10 

287 

-20 

239 

20 

283 

-20 

234 

20 

292 

-10 

240 

20 

298 

-10 

245 

30 

292 

- 10 

260 

30 

301 

0 

260 

30 

299 

0 

278 
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a . 建立关于高尔夫球飞行码数与风速之间关系的估计回归方程。 

b . 在逆风 15 英里/小时的情况下，估计高尔夫球飞行和滚动距离。 

c . 在顺风 25 英里/小时的情况下，估计高尔夫球飞行和滚动距离。 

d . 你的计算结果是否证实了•中所报告的内容？解释原因。 


16 . 2 增加或者删除变量的时间确定 


在本节中，我们将阐述如何利用 f 检验来确定将一个或者多个自变量添加到多元回归模型上 
的利弊。这种检验是根据多元回归模型添加一个或者多个自变量所得到的误差平方和的减少值来 
衡量的。首先让我们来说明怎样将这种检验应用于前一章所介绍的 Butler 运输公司的例子。 

在第15章中，我们介绍了 Butler 运输公司的例子来描述多元回归分析的应用。在那个例子 
中， Butler 运输公司的管理者计划建立估计回归方程，利用两个自 变量： 行驶里程和运送次数来 
预测每天行驶的时间。将车辆的行驶里程^作为惟一的自变量，利用最小二乘法可以得到如下的 
估计回归 方程： 

j = 1. 27 +0, 067 Sx \ 

在第15章中，我们已经说明了模型的误差平方和是 SSE = 8. 029。如果将 变量： 运送货物的■次数 
^作为第2个自变量加人模型之中，则我们可以得到如下的估计回归 方程： 

y = - 0. 869 + 0. 061 1 x \ +0. 923 X 2 

这个模型的误差平方和是 SSE =2. 299,很明显，&的添加使误差平方和减少了。我们想要研究的 
问题 在于： 将^加入模型是否会导致误差平方和显著减少？ 

我们用 SSEU ,) 来表示模型中仅仅含有^这一个自变 M 时的误差平方和，用 SSEU ,， 来 
表示模型中含有^ 和&两 个自变量时的误差平方和，并依此类推。因此，相比仅仅含有^的模 
型的误差平方和，添加 a 所导致的误差平方和的减少值是 

SSEUO - SSEU ,， 炝) =8.029 - 2.299 = 5.730 

我们可以利用 F 检验来确认这个减少是否显著。 

F 统计量的分子是用 SSE 所减少的数值除以模型所增加的自变量个数，在这里仅仅只有 a 这 
一个自变量添加到模型中，所以， F 统计量的分子是 

SSEUi ) - SSE(xi f xi ) - 


这个结果是对 SSE 相应于模型中每添加一个自变量时的减少值的度量。 F 统计量的分母是包含全 
部自变量的模型的均方误差。对于 Butler 运输公司这个例子，它的模型包含两个自变量 a 和 a ， 
因此，/? = 2,并且有 



SSE(^i ， X2) 
n -p - 1 


2. 299 



= 0. 328 4 


*编者按：此处原书如此，疑为 Golf Magazine q 
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关于自变量&的增加是否统计显著，我们可以把下面的 F 统计量作为判断的 根据: 

SSE“i) - SSE(%i ， x2) 

f - 1 - 

SSEUi^ 2 ) 

n _p _ 1 

F 检验分子的自由度等于模型所添加的自变量的个数，分母的自由度为 Tl-p - 1。 
对于 Butler 运输公司的例子，我们可以得到 


(16.10) 


5. 730 

2.299 _ 0. 328 4 - 1 D 
1 

根据附录 B 的表4,我们发现在 a =0.05 的显著性水平下，凡。 5 =5.59。由于 F = 17. 45 >F G05 = 
5,59,因此我们可以拒绝零假设，即&在统计上是不显 著的； 换句话说，将奶添加到仅仅含有 
^的模型中将会导致误差平方和显著减少。 

如果希望检验仅仅添加一个自变量到模型上的显著性，则我们可以利用刚才所描述的 F 检 
验，也可以利用 15.4 节中所介绍的关于单个参数显著性的 f 检验。事实上，我们刚才所计算的 F 
统计量是检验单个参数显著性的 f 统计量的平方。 

因为在模型仅仅添加一个自变量时， f 检验和 F 检验是等价的，因此我们可以更进一步阐述 
检验单个参数显著性的 f 检验。如果单个参数不显著，则我们可以从模型中删除相对应的变量。 
但是，如果 f 检验表明存在两个或者多个参数不显著，则我们从模型中删除的变量永远不能多于 
1 个； 如果我们从模型中删除一个变量，则一开始并不显著的第二个变量将会变为显著变量。 
现在我们开始讨论添加一个以上的自变量，或者一组变量，是否会导致误差平方和显著减少。 


一 般情形 

考察下面含有 g 个自变量的多元回归模型，其中 q< P o 

y = + 办 A + /?2%2 + …+ ^ qX q + e (16.11) 

如果我们将变量 A + ,， x q +2 ，…， & 添加到这个模型中，即可得到一个含有 p 个自变量的多 
元回归模型 


y = ( 3 a / 3 \ X ] + 择 + …+ p q x q + + I Xq + 1 4" j3q + 2 Xq + 2 + / 3 pX P + e (16.12) 

为了检验变量& + 七 + 2 ,…，知的添加在统计上是否显著，我们可以提出如下的零假设和 

备择 假设： 

Ho ： 爲 +1 =成 +2 =…=^, = 0 
i / a ： 至少有一个参数不等于零 


接下来的 F 统计量给出了检验自变量的添加在统计意义上是否显著的 依据: 
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F = 


SSE(%i y x2, mrm ,x q ) ~ SSE(%i ，％ 2,… ，知，如 + 1 ，…，％) 

_ p~p _ 


SSE(%i ，％2 


(16.13) 


一 p - 1 




许多诸如 Minitab 之类的计算软件包给出了按顺序进入模型的每个自变量所增加的平 
方和，在这种情况下，我们可以简化用来确定是否增加或者删除一组变量的，检验计算。 




然后将所计算出的 F 统计量与分子自由度为 p - q 、 分母自由度为 n - p - J 的 F 分布表的上 
侧分位数 F „ 进行比较。如果 F > F a ， 则我们可以拒绝乩，并得出 结论： 所添加的变量组在统计 
上是显著的。请注意，对于^ = 1， p =2 的特殊情形，公式 （16. 13) 即简化为公式 （16. 10)。 

很多学生感觉公式 （16, 13) 过于复杂，为了给出一个关于 F 统计量的比较简单的表达方式， 
我们可以将自变量个数比较少的模型称为简化模型，将自变量个数比较多的模型称为完全模型。 
如果我们令 SSE (简化）表示简化模型的误差平方和，令 SSE (完全）表示完全模型的误差平方和， 
则我们可以把公式 （16. 13) 的分子改写为 


SSE (简化） - SSE (完全) 
~~所添加项的个数 


(16.14) 


请注意，“所添加项的个数”作为分母表示的是完全模型的自变量个数和简化模型的自变量个数 
之间的差值。公式 （16. 13) 的分母是完全模型误差平方和除以相对应的自由度，换句话说，分母是 
完全模型的均方误差。我们用 MSE (完全）来表示完全模型的均方误差，这使得我们可以将公式 
(16. 13) 改写成 

SSE (简化 ） -SSE (完全） 

~~所添加项的个数~ “…、 

F = - (16.15) 

MSE (完全） 

为了描述 F 统计量的用途，假设我们面临一个包含30个观测值的回归问题。第一个模型，包含 
自变量 ％1，％2，幻， 其误差平方和为150;第二个模型，包含自变量 ％1，％2，幻， 和％ 5， 其误 
差平方和为100。^和 A 这两个自变量的添加是否导致误差平方和显著减少了？ 

首先，请注意 SST 的自由度为 30- 1 =29,完全模型回归平方和的自由度为 5( 即完全模型中 
的自变量个数）。因此，完全模型的误差平方和的自由度是29 -5 =24， MSE (完全 ） =100/24 = 
4. 17。由此 F 统计量为 

150 - 100 

F = 4 2 17 =6.00 

将这个 F 计算值与分子自由度为2,分母自由度为24的 F 分布表数值进行比较，在 a =0.05 的 
显著性水平下，附录 B 的表4显示： F 。. 05 =3. 40。由于 F = 6. 00> Fo.os = 3. 40,因此我们可以得 
到 结论： a 和&这两个自变量的添加在统计上是显著的。 
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P -值的应用 

我们也可以利用 p - 值标准来确定将一个或者多个自变量添加到多元回归模型中去的利弊问 
题。在前面的例子中，我们阐述了怎样利用 F 检验来确定，将； C 4 和^这两个自变量添加到含自 
变量％,，&， A 的模型中，这种添加在统计上是否显著的问题。对这个例子， F 统计量的计算值 
为 6.00, 通过将 F = 6. 00与关键值凡.。 5 = 3. 40进行比较，我们可以得出 结论：☆和奶这 两个自 
变量的添加在统计上是显著的。与 F = 6.00( 分子自由度为2,分母自由度为 24) 相联系的 p -值 
为0.008。由于 p - 值 =0.008< a =0.05, 我们也可以得出 结论： ☆ 和犯这两个自变量的添加在 
统计上是显著的。直接从 F 分布表上确定 p - 值是比较困难的，如果使用计算软件包，比如 
Minitab 或者 Excel ,则 p _值的计算就会变得相当简单。 



F 统计量的计算也可以根据回归平方和的 
差来完成，为了说明厂统计量的这种计算形 
式，我们首先 看到： 

SSE (简化) = SST - SSR (简化） 

SSE (完全) = SST - SSR (完全) 

因此， SSE (简化） - SSE (完全 ） = [SST 


- SSR (简化）]- [ SST - SSR ( 完全 ） ]=SSR 
(完全） - SSR (简化） 


因此，尸= 


SSR (完全） - SSR (简化) 
所添加项的个数 
MSE (完全） 



方法 

10. 某个回归分析包含27个观测值，有如下的估计回归 方程： 

y = 25. 2 +5. 5 x \ 

对这个估计回归方程， SST = 1 550, SSE =520。 

a . 在 a =0.05 的显著性水平下，检测&的显著性。假设 将&和 m 添加到模型中，得到如下 


的回归 方程： y =16.3+2.3 ^i + 12. U 2-5. 8^3,对这个估计回归方程，有 SST = 1 550, 
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SSE = 100c 

b. 在 a=0. 05 的显著性水平下，利用 F 检验来确定 &和 &是否对模型有显著作用。 

11. 某个回归分析包含 30 个观测值，有如下的估计回归 方程： 

自测题 y = 17. 6 + 3. Sx] 一 2. 3 欠 2 + 7. 6 幻 +2. 7 欠 4 

对这个估计回归方程， SST = 1 805, SSR = 1 760 o 

a. 在 a=0. 05 的显著性水平下，检测变量之间关系的显著性。假设将；^和&从模型 
中删除，得到如下的回归 方程： y=ll. 1 -3.6^ + 8. 1^3, 对这个估计回归方程， 
有 SST= 1805, SSR = 1 705 。 

b. 计算 SSE( a ，斯，欠 3 ，欠 4 )。 

c . 计算 SSE (% 2 , ^ 3)0 

d. 在 a =0.05 的显著性水平下，利用 厂检验 来确定&和☆是否对模型有显著作用。 


应用 


12 . 


自测题 



CD 光盘数据 
Football 


下表给出了全美橄榄球联赛中14支球队的15场比赛成绩。 

a . 建立估计回归方程，在已知一支球队抢断次数的情况下预测这支球队的总得分。 

b. 建立估计回归方程，在已知一支球队抢断次数、带球突破前进的码数、对方球队抢 
断次数的情况下预测这支球队的总得分。 

c . 在 a = 0.05 的显著性水平下，检验带球突破前进的码数、对方球队抢断球次数这两 
个变量的添加是否对 U ) 中估计回归方程有显著作用？解释原因。 


交互作用 


球队 

赢一输 

总得分 

带球突破前进的码数 

传球码数 

本球队抢断次数 

对方球队抢断次数 

Atlanta 

5—10 

305 

1 907 

2 473 

19 

23 

Chicago 

12—3 

187 

2 134 

2 718 

14 

24 

Dallas 

3 —12 

358 

1 858 

3 386 

24 

10 

Detroit 

4—11 

292 

1 184 

1 971 

15 

12 

Green Bay 

3—12 

298 

1 274 

3 046 

22 

20 

St. Louis Rams 

9—6 

277 

1 882 

3 604 

17 

22 

Minnesota 

10—5 

206 

1 744 

3 633 

16 

35 

New Orleans 

9—6 

274 

1 843 

2 963 

15 

17 

N. Y. Giants 

10—5 

277 

1 492 

3 096 

14 

15 

Philadelphia 

9—6 

312 

1 812 

3 247 

17 

29 

Phoenix 

7—8 

372 

1 909 

3 633 

19 

14 

San Francisco 

10—5 

256 

2 453 

3 131 

14 

21 

Tampa Bay 

4—11 

340 

1 650 

3 169 

33 

18 

Washington 

7—8 

367 

1 377 

3 930 

24 

14 
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13. 参考练习12。 

a . 建立估计回归方程，以球队总得分为因变量，以传球码数、本球队抢断次数、对方球队抢 
断次数为自变量。 

b . 建立估计回归方程，以传球码数、本球队抢断次数、对方球队抢断次数、带球突破前进的 
码数作为自变量，以球队总得分为因变量。 

c . 在 a = 0 . 05的显著性水平下，带球突破前进的码数是否对 ( a ) 中所建立的估计回归方程有 
显著作用？解释原因。 


14. 



CD 光盘数据 
Stroke 


美国心脏协会进行了一次历时10年的研究，获得了和中风发病概率有关的年龄、血 
压以及吸烟的统计资料。以下是这一研究的部分数据，中风风险指的是病人在今后10 
年内中风发病概率（乘100)。我们用一个虚拟变量来表示病人是否为吸烟者，1表示 
病人是吸烟者，0表示病人不是吸烟者。 


发病概率 

年龄 

血压 

是否吸烟 

12 

57 

152 

0 

24 

67 

163 

0 

13 

58 

155 

0 

56 

86 

177 

1 

28 

59 

196 

0 

51 

76 

189 

1 

18 

56 

155 

1 

31 

78 

120 

0 

37 

80 

135 

1 

15 

78 

98 

0 

22 

71 

152 

0 

36 

70 

173 

1 

15 

67 

135 

1 

48 

77 

209 

1 

15 

60 

199 

0 

36 

82 

119 

1 

8 

66 

166 

0 

34 

80 

125 

1 

3 

62 

117 

0 

37 

59 

207 

1 


a . 利用这些数据，建立一个估计回归方程，因变量为发病概率，自变量是病人的年龄，血 
压 。 

b . 考虑对 ( a ) 中的估计回归方程添加两个自 变量： 一个是年龄和血压之间的相互作用，另一个 
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是此人是否吸烟。利用这4个自变量建立估计回归方程。 
c . 在 a =0. 05的显著性水平下，检验年龄和血压之间的相互作用以及吸烟这两个自变量的添 
加是否对 ( a ) 中所建立的估计回归方程有显著作用。 


15. 



CD 光盘数据 
NFL 


全国橄榄球联盟根据球员的场上位置将他们分成 5-9 个等级。等级的划分如下标 
准： 8— 9级从第一年 开始； 7.0—7.9 级现在 开始； 6.0—6.9 级将作为球队后备力 
量； 5.0—5.9 级可以组建俱乐部及其分部。下表所示的是40个球员的场上位置、体 
重、速度 (40 码）以及等级 U /&4 Today , April 14, 2000) : 


观测序号 

姓名 

位置 

体重（磅 > 

速度 （秒 } 

等级 

1 

Peter Warrick 

接球手 

194 

4. 53 

9.0 

2 

Plaxico Burress 

接球手 

231 

4.52 

8.8 

3 

Sylvester Morris 

接球手 

216 

4.59 

8.3 

4 

Travis Taylor 

接球手 

199 

4. 36 

8. 1 

5 

Laveranues Coles 

接球手 

192 

4.29 

8.0 

6 

Dez White 

接球手 

218 

4.49 

7.9 

7 

Jerry Porter 

接球手 

221 

4. 55 

7.4 

8 

Ron Dugans 

接球手 

206 

4.47 

7. 1 

9 

Todd Pinkston 

接球手 

169 

4.37 

7.0 

10 

Dennis Northcutt 

接球手 

175 

4.43 

7.0 

11 

Athony Lucas 

接球手 

194 

4.51 

6.9 

12 

Darrell Jackson 

接球手 

197 

4.56 

6.6 

13 

Danny Farmer 

接球手 

217 

4.60 

6.5 

14 

Sherrod Gideon 

接球手 

173 

4. 57 

6.4 

15 

Trevor Gay lor 

接球手 

199 

4.57 

6.2 

16 

Cosey Coleman 

守门员 

322 

5.38 

7.4 

17 

Travis Glaridge 

守门员 

303 

5. 18 

7.0 

18 

Kaulana Noa 

守门员 

317 

5.34 

6. 8 

19 

Leander Jordan 

守门员 

330 

5.46 

6.7 

20 

Chad Clifton 

守门员 

334 

5. 18 

6.3 

21 

Manula Savea 

守门员 

308 

5, 32 

6, 1 

22 

Ryan Johanningmei 

守门员 

310 

5. 28 

6.0 

23 

Mark Tauscher 

守门员 

318 

5.37 

6.0 

24 

Blaine Saipaia 

守门员 

321 

5. 25 

6.0 

25 

Richard Mercier 

守门员 

295 

5. 34 

5.8 

26 

Damion McIntosh 

守门员 

328 

5, 31 

5.3 

27 

Jeno James 

守门员 

320 

5. 64 

5.0 

28 

A1 Jackson 

守门员 

304 

5.20 

5.0 
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(续表) 


观测序号 

姓名 

位置 

体重（磅） 

速度（秒） 

等级 

29 

Chris Samuels 

攻球手 

325 

4. 95 

8.5 

30 

Stockar McDougle 

攻球手 

361 

5. 50 

8.0 

31 

Chris Mclngosh 

攻球手 

315 

5.39 

7.8 

32 

Adrian Klemm 

攻球手 

307 

4.98 

7.6 

33 

Todd Wade 

攻球手 

326 

5.20 

7.3 

34 

Marvel Smith 

攻球手 

320 

5.36 

7. 1 

35 

Michael Thompson 

攻球手 

287 

5.05 

6.8 

36 

Bobby Williams 

攻球手 

332 

5. 26 

6. 8 

37 

Darnell Alford 

攻球手 

334 

5. 55 

6.4 

38 

Terrance Beadles 

攻球手 

312 

5. 15 

6.3 

39 

Tutan Reyes 

攻球手 

299 

5. 35 

6, 1 

40 

Greg Robinson-Ran 

攻球手 

333 

5.59 

6.0 


a . 建立一个虚拟变量来表示球员的场上位置。 

b . 建立一个估计回归方程来表示球员等级与场上位置、体重以及速度之间的相关关系'。 

c . 在 a =0. 05的显著性水平下，检测 （ b ) 中所建立的估计回归方程里面自变量和因变量之间 
的关系是否显著。 

d . 球员的场上位置是否是决定球员等级的显著因素？利用 a =0. 05的显著性水平进行检测， 
并解释原因。 


16.3 大型问题分析 

在介绍多元回归分析的过程中，我们深人讨论过 Butler 运输公司的例子。这个例子所涉及的 
变量数目较少，因而便于引人概念，但是如果要说明在建模过程中我们应该选择哪些变量，则应 
用这个例子将会变得比较困难。为了描述下一节将要详细论述的变量选择过程，我们引人由8个 
自变量和 25 个观测值所组成的一个数据集合，这个数据集合是由得克萨斯州克里斯琴大学经济系 
的 David W . Cravens 博士提供给我们使用的，因此我们将这个数据集合称为 Cravens 数据(/ 

Cravens 数据是从一家在多个销售区域销售产品的公司釆集的，这家公司在每一个销售区域都 
有独家代理商。我们对这些数据进行回归分析的目的在于确定每个预测 （ 自）变量是否能够解释各 
个销售区域的销售情况。对 25 个销售区域随机抽取的样本组成了表 16.5 中的 数据； 表 16. 6 给出 
了变量的定义。 


* 详见 David W. Cravens , Robert B. Woodruff ， 和 Joe C. Stamper, “An Analytical Approach for Evaluating Sales Territory Perfor- 
mance ， ”Jouma/ • ，第 36 期 （January 1972) : 31 -37 页 。 Copyright © 1972 American Marketing Association. 
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表 16. 5 Cravens 数据 


Sales Time 

3 669. 88 43. 10 

3 473.95 108.13 

CD 光盘数据 2 295. 10 13. 82 

Cravens 

4 675. 56 186. 18 

6 125. 96 161.79 

2 134. 94 8. 94 

5 031.66 365. 04 

3 367. 45 220. 32 

6 519.45 127. 64 

4 876. 37 105. 69 

2 468. 27 57.72 

2 533.31 23.58 

2 408.11 13. 82 

2 337.38 13. 82 

4 586. 95 86. 99 

2 729. 24 165. 85 

3 289. 40 116,26 

2 800. 78 42. 28 

3 264. 20 52. 84 

3 453.62 165. 04 

1 741.45 10. 57 

2 035. 75 13. 82 

1 578.00 8.13 

4 167.44 58. 44 

2 799. 97 21.14 


Poten 

AdvExp 

Share 

74 065. 1 

4 582.9 

2.51 

58 117. 3 

5 539.8 

5.51 

21 118.5 

2 950.4 

10.91 

68 521.3 

2 243. 1 

8. 27 

57 805. 1 

7 747. 1 

9. 15 

37 806. 9 

402.4 

5.51 

50 935.3 

3 140.6 

8. 54 

35 602. 1 

2 086.2 

7, 07 

46 176. 8 

8 846.2 

12. 54 

42 053.2 

5 673. 1 

8. 85 

36 829.7 

2 761.8 

5.38 

33 612.7 

1 99L8 

5.43 

21 412. 8 

1 971.5 

8.48 

20 416.9 

1 737.4 

7.80 

36 272.0 

10 694.2 

10.34 

23 093. 3 

8 618.6 

5. 15 

26 878.6 

7 747.9 

6.64 

39 572.0 

4 565.8 

5.45 

51 866. 1 

6 022.7 

6.31 

58 749.8 

3 721. 1 

6. 35 

23 990. 8 

861.0 

7. 37 

25 694.9 

3 571.5 

8. 39 

23 736.3 

2 845.5 

5. 15 

34 314.3 

5 060. 1 

12. 88 

22 809.5 

3 552.0 

9. 14 


Change 

Accounts 

Work 

Rating 

0.34 

74.86 

15. 05 

4.9 

0. 15 

107. 32 

19.97 

5. 1 

- 0.72 

96.75 

17. 34 

2.9 

0. 17 

195. 12 

13.40 

3.4 

0. 50 

180,44 

17.64 

4.6 

0. 15 

104. 88 

16. 22 

4.5 

0. 55 

256. 10 

18.80 

4,6 

-0.49 

126. 83 

19, 86 

2.3 

1.24 

203. 25 

17.42 

4.9 

0.31 

119,51 

21.41 

2.8 

0. 37 

116. 26 

16,32 

3. 1 

-0. 65 

142. 28 

14.51 

4.2 

0. 64 

89.43 

19. 35 

4.3 

1.01 

84.55 

20. 02 

4.2 

0, 11 

119.51 

15.26 

5.5 

0.04 

80.49 

15. 87 

3.6 

0,68 

136.58 

7.81 

3.4 

0.66 

78. 86 

16.00 

4.2 

-0. 10 

136.58 

17.44 

3.6 

- 0.03 

138.21 

17.98 

3. 1 

-1.63 

75.61 

20.99 

1.6 

-0. 43 

102. 44 

21.66 

3.4 

0. 04 

76. 42 

21.46 

2.7 

0. 22 

136. 58 

24.78 

2,8 

-0.74 

88. 62 

24. 96 

3.9 



表 16. 6 Cravens 数据中的变量定义 

变置 定义 

Sales 销售代理商的总销售收入 

Time 销售代理商为公司代理销售的时间 

Poten 市场 潜力： 销售区域总销量 

AdvExp 在销售区域所花费的广告费用 

Share 所占市场 份额： 取前 4 年的加权平均值 

Change 过去 4 年中市场份额的变动 

Accounts 指定给销售代理商的商店数量* 

Work 工 作量： 根据商店一年的零售和批发数 额所计 算的加权指数 

Rating 根据 8 个方面的业绩表现对代理商进行 排序： 综合排序为 1 一 7 分 

* 给这些数据加标记是为了观测置信度。 
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第一步，我们首先考虑每一对变量之间的样本相关系数。图 16. 13是利用 Minitab 的相关命令 
所得到的相关矩阵。请注意， Sales 和 Time 之间的样本相关系数为 0. 623， Sales 和 Poten 之间的样 
本相关系数是0.598,其他依次类推。 

考察各个自变量之间的样本相关系数，我们可以看到 Time 和 Accounts 之间的相关系数为 
0.758; 因此，如果将 Accounts 作为自变量，则 Time 将不会对模型具有很大的解释能力。回顾 
15. 4节中所介绍的关于多重共线性的经验检验 法则： 如果任意两个自变量之间的样本相关系数的 
绝对值大于0.7,则多重共线性将会影响估计结果的精确性。如果可能的话，我们应该尽量避免 
在同一个回归模型中同时包含 Time 和 Accounts 这两个自变量。 Change 和 Rating 之间的样本相关 
系数为0.549,这也是比较高的，因此需要我们对此作进一步的考虑。 



Sales 

Time 

Poten 

AdvExp 

Share 

Change 

Accounts 

Work 

Time 

0.623 








Poten 

0.598 

0.454 






■ 

AdvExp 

0.596 

0.249 

0.174 






Share 

0.484 

0.106 

-0.211 

0.264 





Change 

0.489 

0.251 

0.268 

0.377 

0.085 




Accounts 

0.754 

0.758 

0.479 

0.200 

0.403 

0.327 



Work 

-0.117 

-0.179 

-0.259 

-0.272 

0.349 

-0.288 

-0.199 


Rating 

0.402 

0.101 

0.359 

0.411 

-0.024 

0.549 

0.229 

-0.277 


图 16. 13 Cravens 数据中的样本相关系数 


考察一下 Sales 和每一个自变量之间的样本相关系数，我们很快就可以明白哪一个自变量能够 
作为最好的预测自变量。我们可以 看到： Accounts 是 Sales 最好的预测变量，因为它们之间的样本 
相关系数高达0.754,是所有关于 Sales 的样本相关系数里面最高的。回顾一个自变量的情形，样 
本相关系数的平方就是判定系数。因此， Accounts 可以解释(0.754) 2 ( 100)，或者 56. 85%的 sales 
变异性。下一个最为重要的自变量是 Time 、 Poten 和 AdvExp ， 它们之中的每一个和 Sales 之间的样 
本相关系数都接近于0.6。 

虽然这里存在潜在的多重共线性问题，还是让我们来考察一下怎样利用所有8个自变量来建 
立估计回归方程。 Minitab 计算软件包给出了图 16. 14中的计算结果。这个带有8个自变量的多 
元回归模型修正判定系数为88.3%。但是，请注意，单个参数 t 检验的/>_值 显示： 在 a = 
0.05 的显著性水平下，如果其他所有变量的影响都是已知的，则只有 Poten 、 AdvExp 和 Share 这 
三个变量是显著的。因此，我们可能会倾向于仅仅利用这三个变量调查所得到的结果。图 16. 15 
显示了利用这三个自变量所得到的估计回归方程的 Minitab 计算结果。我们可以看到估计回归方 
程的修正判定系数是 82. 7%，虽然它没有8个自变量的估计回归方程的系数那样好，但至少也 
是比较高的。 

对于已知的可以使用的数据，我们怎样才能建立一个最为合适的估计回归方程呢？也就是 
说，我们可以建立8个只带一个变量的估计回归方程（每个回归方程对应一个自变量），28个带 
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The regression equation is 

Sales = - 1508 + 2.01 Time + 0.0372 Poten + 0.151 AdvExp + 199 Share 
+ 291 Change + 5.55 Accounts + 19.8 Work + 8 Rating 


Predictor 

Coef 

Stdev 

t-ratio 

P 

Constant 

1507.8 

778.6 

-1.94 

0.071 

Time 

2.010 

1.931 

1.04 

0.313 

Poten 

0.037205 

0.008202 

4.54 

0.000 

AdvExp 

0.15099 

0.04711 

3.21 

0.006 

Share 

199.02 

67.03 

2.97 

0.009 

Change 

290.9 

186.8 

1.56 

0.139 

Accounts 

5.551 

4.776 

1.16 

0.262 

Work 

19.79 

33.68 

0.59 

0.565 

Rating 

8.2 

128.5 

0.06 

0.950 


s = 449.0 R-sq = 92.2% R-sq(adj) = 88.3% 


Analysis of Variance 


SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

8 

38153568 

4769196 

23.65 

0.000 

Error 

16 

3225984 

201624 



Total 

24 

41379552 





图 16. 14 包含所有 8 个自变量的模型的 Minitab 输出结果 


The regression equation is 

Sales = -* 1604 + 0.0543 Poten + 0.167 AdvExp + 283 Share 


Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

- 1603.6 

505.6 

-3.17 

0.005 


Poten 

0.054286 

0.007474 

7,26 

0.000 


AdvExp 

0.16748 

0.04427 

3.78 

0.001 


Share 

282.75 

48.76 

5.80 

0.000 


s = 545*5 

R-sq 

= 84.9% 

R-sq (adj)= 

82.7% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

3 35130240 11710080 

39.35 

0.000 

Error 

21 

6249310 

297586 



Total 

24 41379552 





图 16. 15 包含 Poten 、 AdvExp 和 Share 三个变量的模型的 Minitab 输出结果 
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两个变量的估计回归方程 （8 个变量每次取 .2 个所组成的组合），等等，依此类推。对于 Cravens 
数据，共有255个包含一个或者多个自变量的互不相同的估计回归方程可以用于对数据进行拟 
合。 

如今我们已经具有相当优秀的计算软件包，这使得我们可以计算所有可能的回归。但是这样 
做也会导致大量的计算任务，并且模型设计者不得不审查大量的计算机输出结果，其中大部分都 
与失败的模型相关。统计学家们更加倾向于用系统的方法从所有自变量中选取一部分自变量，利 
用这一部分自变量即可得到最适合的估计回归方程。在下一节中，我们将介绍一些更为通用的方 
法 o 


16.4 变量选择方法 

在本节中，我们将讨论选择回归模型自变量所用的4种基本的变量选择方 ^法： 逐步回归、前 
向选择、后向消元和最佳子集回归。在已知所有可能的自变量数据集合时，我们可以利用这4种 
方法来确定哪些自变量可以给出最佳的模型。前3种方法都采用反复 迭代； 过程的每一步都添加 
或者删除一个自变 M ， 并且对新建立的回归模型进行评估。这种迭代过程将会持续不断地进行下 
去，直到有一个终止标准可以 表明： 我们已经不可能再找到更好的模型。最后一种方法(最佳子集 
回归)并非单个变量、一次性方法，利用这种方法我们可以对包含不同自变量子集的回归模型进行 
评估。 

变量选择方法在建模初期特别有用，但是这些方法还是无法代替分析师的经验和判断。 

在逐步回归、前向选择和后向消元方法中，确定从模型中添加或者删除一个自变量的标准是 
基于 16. 2节中所介绍的 F 统计量。举个例子，我们正在考虑添加 m 到包含 A 的模型中，或者 
从包含 A 和； C 2 的模型中删除为了检验 &的添 加或者删除是统计显著的，我们可以进行如下 
备择 假设： 

H 0 : 烽 = 0 

H u ： /327^0 

在 16.2 节中[见公式 （16. 10)]，我们已经阐 述过： 

SSE (^ i ) ~ SSE (^： i ^ xi ) 

F= _ 1 _ 

SSE(^：i ,^ 2 ) 
n - p - 1 

这个 F 值可以作为确定 &的存 在是否导致误差平方和显著减少的标准。对应于 F 统计量的 p - 
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值也可以作为标准，用于确定是否需要从模型中添加或者删除某个自变量。一般的拒绝法则是这 
样的： 如果 p -{ t < a , 则我们可以拒绝执。 

逐步回归 

逐步回归方法的第一步要确定 已经存在于模型中的 变量是否需要删除，它首先计算模型中每 
一个自变量的 F 统计量和相对应的值。用于确定某个自变量是否应该从模型中删除的 a 显著 
性水平可以参考 Minitab 中的 《删除值。 如果任意自变量的 p - 值大于 a 删除值， 则我们可以从 
模型中删除值最大的自变量，然后逐步回归方法开始下一步新的计算。 

如果没有自变量可以从模型中删除，则我们可以尝试将另一个新的自变量添加到模型中去。 
首先计算模型以外的每一个自变量的 F 统计量和相对应的 p - 值，用于确定某个自变量是否可以 
添加到模型中的 a 显著性水平可以参考 Minitab 中的 “ a 添加值”。如果变量的 p - 值小于 a 添加 
值，则将 p - 值最小的自变量添加入模型之中。逐步回归法会如此不断重复操作，直至没有自变 
量可以从模型中删除，也没有自变量可以添加到模型中去。 

图 16. 16显示了对 Cravens 数据应用 Minitab 逐项回归方法处理后所得的结果， qj 删除值为 
0.05， o : 添加值也是 0.05。逐步回归法经过4个步骤后 终止， 应用 Minitab 逐步回归法处理后所 
得的估计回归方程如下 所示： 


y = 一 1 441. 93 + 9. 2 Accounts + 0. 175 AdvExp + 0. 038 2 Poten + 190 Share 

由于 对一定数量的自变量 而言， 对变量进行每次单个处理的方法并没有考虑到每一 
个 可能的子集，所以没有必要选择 R-sq 值最高的模型。 

请注意图 16. 16中经过4个步骤已经从带有最佳自变量模型（利用 Accounts ) 的881减少 
到了 454。 R - sq 值已经从 56. 85%增加到了 90.04%，所推荐的估计回归方程的 R-sq ( adj ) 值为 
88. 05%。 

总的说来，逐步回归法的每一步都是首先考虑是否可以从当前模型中删除自变量。如果没有 
自变量从当前模型中删除，则逐步回归法会考虑是否将某个不在当前模型之中的变量添加到模型 
中来。由于逐步回归法的性质特点，某个自变量可以在某一步进人模型，也" I 以在某一步从模型 
中删除，然后又在下一步进入模型。如果没有自变量进入模型，或者没有自变量从模型中删除， 
逐步回归法就会终止。 

■liU 丄节 

刖向选择 

前向选择法在没有自变量的情况下开始，它每次将一个自变量添加到模型当中，确定自变量 
是否能够添加到模型中去的方法和逐步回归法一样。但是，不同的是，前向选择法将自变量添加 
到模型中以后，便不允许再将自变量从模型中删除。如果模型之外的每一个自变量的 p - 值都小 
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Alpha-to-Enter : 0 . 05 Alpha-to-Remove : 0.05 

Response is Sales on 8 predictors, with N = 25 


Step 

1 

2 

3 

4 

Constant 

709.32 . 

50.29 

-327.24 

-1441.93 

Accounts 

21.7 

19.0 

15.6 

9.2 

T-Value 

5.50 

6.41 

5.19 

3.22 

P - Value 

0.000 

0.000 

0.000 

0.004 

AdvExp 


0.227 

0.216 

0.175 

T-Value 


4.50 

4.77 

4.74 

P-Value 


0.000 

0.000 

0.000 

Poten 



0.0219 

0.0382 

T-Value 



2.53 

4.79 

P-Value 



0.019 

0.000 

Share 




190 

T-Value 




3.82 

P-Value 




0.001 

S 

881 

650 

583 

454 

R_ Sq 

56.85 

77.51 

82.77 

90.04 

R-Sq(adj) 

54.97 

75.47 

80.31 

88.05 

c-p 

67.6 

27.2 

18.4 

5.4 


图 16. 16 对 Cravens 数据应用逐步回归法处理所得的 Minitab 输出结果 

于 a 添加值， 则前向选择法就会终止。 

应用 Minitab 前向选择法处理后所得的估计回归方程如下 所示： 

y = - 1 441. 93 + 9. 2 Accounts +0. 175 AdvExp + 0. 038 2 Poten + 190 Share 


因此，对于 Cravens 数据，前向选择法 （a 添加值为 0. 05) 和逐步回归法所得到的估计回归方程是 
相同的。 


后向消元 

后向消元法的起点是模型中已经包含所有的自变量，然后它使用与逐步回归相同的方法每次 
删除一个自变量。但是，一旦一个自变量从模型中被删除，则后向消元法不允许这个自变量重新 
添加到模型中去。如果模型之内的每一个自变量的 p - 值都小于 a 删除值， 则后向消元法就会终 

J-h. 0 
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对 Cravens 数据应用 Minitab 后向消元法处理 （ a 删除值为 0. 05) 后所得的估计回归方程如下所 
示： 


y - 一 1312 +3. 8 Time +0. 044 4 Poten + 0. 152 AdvExp + 259 Share 

将利用后向消元法所得的估计回归方程与利用前向选择法所得的估计回归方程进行比较，我们可 
以看到两者都 包含： AdvExp 、 Poten 和 Share 。 但是，后向消元法包含 Time , 而前向选择法包含 
Accounts o 

前向选择和后向消元有可能得到不同的模型。 

前向选择和后向消元是建模的两个极端，前向选择法起始于模型中没有自变量，它每次将 t 
个自变量添加到模型当中，但是后向消元法起始于模型中的所有自变量，它每次从模型中删除一 
个变量。这两种方法有可能得到一个相同的估计回归方程，但是，就像我们在对 Cravens 数据的 
处理中所看到的，这两种方法也有可能得到两个不同的估计回归方程。究竟选取哪一个估计回归 
方程尚有待讨论，最后还是要利用统计分析师的判断能力。接下来我们要讨论的最佳子集回归建 
模给出了在最终决策之前所需的补充建模信息。 


最佳子集回归 

逐项回归、前向选择，后向消元都是通过每次从模型中添加或者删除一个自变量来选 
择回归模型。对于一组已知变量，它们都不能保证所建立的模型是最佳模型。因此，我们 
可以研究这些每次处理一个变量的方法，这样可以对我们选择一个最佳回归模型提供帮 
助。 

一些软件包有执行最佳子集回归过程的功能，在给定一组自变量的情况下，最佳子集回归过 
程可以使用户获得最佳回归模型。 Minitab 就具备这样的功能。图 16. 17是对 Cravens 数据集合进 
行最佳子集回归处理后所得的部分计算机输出结果。 

这个输出结果给出了两个单变量的最佳估计回归方程，同时也给出了两个双变量的最佳估计 
回归方程，还有两个三变量的最佳估计回归方程，依此类推。对于任意数量的预测变量来说， 
用来确定哪一个估计回归方程是最佳回归方程的标准都是判定系数 （ R - sq ) 的数值。举个例子，变 
量 Accounts , 它的 R - sq 值为 56. 8% ,给出了仅有一个自变量的最佳估计回归方程； AdvExp 和 
Accounts , R - sq 值为 77. 5%，给出了含两个自变量的最佳估计回归方程； Poten 、 AdvExp 和 
Share , R - sq 值为 84 . 9%，给出了含三个自变量的最佳估计回归方程。对于 Cravens 数据，含有六 
个自变量： Time 、 Poten 、 AdvExp 、 Share 、 Change、Accounts 的模型的修正判定系数 （ Adj . R-sq = 
89, 4%) 最大，但是，含有四个自变量 （ Poten 、 AdvExp 、 Share 、 Accounts ) 的模型的修正判定系数 
也比较高 （88. 1%)。在其他所有条件都相同的情况下，人们倾向于使用包含较少自变量的简单 
模型。 
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图 16. 17 最佳子集回归的部分 Minitab 输出结果 


最终选择 

对 Cravens 数据已经完成的统计分析可以给我们选择最后模型做一个很好的准备，但是在作 
出最终的选择之前，我们还需要对数据进行更多的分析。正如我们在第14和第15章所提过的那 
样，我们应该对残差进行仔细分析。对于所选择的模型，我们希望它的残差图应该呈一条水平带 
状。我们可以假设残差分析不会造成什么问题，并且可以利用最佳子集回归方法来帮助选择模型。 

最佳子集过程已经告诉我们：最佳四变量模型包含 Poten 、 AdvExp 、 Share 、 Accounts 四个变 
量，利用逐项回归过程所得的四变量模型也是如此。表 16. 7可以帮助我们进行最后的选择，它给 
出了几个模型，这些模型包含全部或者一部分自变量。 

表 16. 7 包含 Poten 、 AdvExp 、 Share、Accounts 四个变最的模型 


模型 

自变量 

Adj. R-sq 

1 

Accounts 

55.0 

2 

AdvExp, Accounts 

75. 5 

3 

Poten, Share 

72.3 

4 

Poten, AdvExp, Accounts 

80. 3 

5 

Poten, AdvExp, Share 

82.7 

6 

Poten, AdvExp, Share, Accounts 

88. 1 
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从表 16.7 中我们可以看到：仅包含 AdvExp 和 Accounts 的模型是一个比较好的模型，其修正 
判定系数为75.5%,而对于包含了全部四个自变量的模型，它的修正判定系数仅仅提高了 12.6 
个百分点。举个例子，假如市场潜力 （ Poten ) 难以测量，则我们会倾向于选择只包含两个自变量的 
简单模型。但是，如果数据可以很轻松地获得，并且对销量的预测要求很精确，则模型的设计者 
很明显会倾向于使用包含所有四个自变量的模型。 



1. 逐项回归法要求 a 删除值要大于或者等于 
a 添加值。这项规定可以防止同一个变量在 
同一个步骤中被删除而又立即被添加到模型 
当中。 

2. 对本章所介绍的任何一种方法，自变量的函 
数都可以用来生成新的自变量。举个例子， 
如果我们希望模型中 aA 表示这两个变量之 


间的相互作用，我们可以利用自变量^和 
^2的数据生成新的变量 Z = 的数据。 

3. 这些每次只能添加或者删除一个变量的过 
程，都不能保证确认最佳回归模型。但是它 
们是找到较好模型的优良方法，特别是多重 
共线性比较弱时。 



应用 

16. 两个专家给出了他们认为在美国全国范围内最好的学区列表，对每一个学区，有如下 

Siif 的 数据： 每班平均人数，每个学生的教育经费（美 元）， 教师的平均工资（美 元）， 综合 
自测 ^ SAT 分数，参加 SAT 考试的学生比例，考入四年制大学的毕业生比例。 



CD 光盘数据 


Schools 


每班平每个学生的教教师的平均综合 SAT 分考入四年制大学的 
城市 均人数育经费 ( 美元）工资（美元）数 ( 参加考试毕业生比例 (％) 

的百分比） 


Blue Springs, MO 

25 

3 060 

29 359 

1 083/(8) 

74 

Garden City, NY 

18 

9 700 

51 000 

997/(99) 

77 

Indianapolis, IN 

30 

3 222 

30 482 

716/(42) 

40 

Newport Beach, CA 

26 

4 028 

37 043 

977/(46) 

51 

(Newport - Mesa) 






Novi, MI 

20 

3 067 

39 797 

980/(15) 

53 
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( 续表 ) 


每班平每个学生的教教师的平均综合 SAT 分考入四年制大学的 
城市 均人数育经费 ( 美元）工资 ( 美元）数（参加考试毕业生比例 （％) 

的百分比） 


Piedmont ， CA(Piedmont City) 

28 

4 208 

37 274 

1 042/(91) 

75 

Pittsburgh, PA (Fox Chapel area) 

21 

4 884 

37 156 

983/(80) 

66 

Scarsdale, NY(Edgemont) 

20 

9 853 

31 555 

1 110/(98) 

87 

Wayne, PA(Radnor Township) 

22 

5 022 

40 406 

1 040/(95) 

85 

Weston, MA 

21 

4 680 

39 800 

1 031/(99) 

89 

Farmingdale, NY 

22 

6 729 

45 846 

947/(75) 

81 

Mamaroneck, NY 

20 

10 405 

49 625 

1 000/(90) 

69 

Mayfield, OH 

24 

5 881 

36 228 

1 003/(25) 

48 

Morristown, NJ 

22 

6 300 

37 000 

972/(80) 

64 

New Rochelle, NY 

23 

8 875 

41 650 

1 039/(80) 

55 

Newtown Square, PA 

17 

5 313 

38 000 

963/(75) 

79 

(Marple - Newtown) 






Omaha, NB(Westside) 

23 

4 815 

32 500 

1 059/(31) 

81 

Shaker Heights, OH 

23 

4 370 

38 639 

940/(56) 

82 


设参加4年大学学习的毕业生数为因变量。 

a . 建立最佳单变量估计回归方程。 

b . 利用逐项回归法建立最佳估计回归方程。 

c . 利用后向消元法建立最佳估计回归方程。 

d . 利用最佳子集回归法建立最佳估计回归方程。 

17. 参考练习12中的数据，取获胜数为自变量。 

a . 建立最佳单变量估计回归方程。 

b . 利用逐项回归法建立最佳估计回归方程。 

c . 利用后向消元法建立最佳估计回归方程。 

d . 利用最佳子集回归法建立最佳估计回归方程。 


18. 



LPGATour 


女子职业高尔夫球协会 ( LPGA ) 保留有关于它的成员在高尔夫球联盟巡回赛中的比赛成 
绩和收入的统计资料。以下是1997年底 LPGA 巡回赛的统计资料 （ Go ^ eeA ：， December 
6， 1997)。 Scoring Avg . 指的是每 18 个高尔夫球的平均得分； Driving Distance 指的是 
每杆高尔夫球平均飞行的码数； Fairways 指的是高尔夫球落点位于球道之内的比例， 
Greens 指的是球手按比赛规则将高尔夫球击打在球洞场地之内的比例， Putts 指的是球 
手每场比赛将高尔夫球轻击入洞的 比例； Sand Saves 指的是高尔夫球被打入球场旁边 
的沙地时，高尔夫球手可以克服地面起伏不平的困难将球救回的比例。如果高尔夫球 
的任何部分接触到球场的轻击区，并且球入洞杆数少于标准杆数两杆，则我们应该按 


750 商务与经济统计 


19. 



CD 光盘数据 
StkData 


规则将球场的场地情况考虑在内。 

球手 平均得分 码数 入球道比入场内比进洞比 救球比 

(Player) (Scoring Avg. ) (Driving Distance) (Fairways) (Greens) (Putts) (Sand Saves) 


Annika Sorenstam 

70, 04 

249. 00 

75.4 

73. 2 

29.67 

47.3 

Karrie Webb 

70,00 

254. 60 

72. 1 

75. 1 

30. 20 

38.0 

Kelly Robbins 

- 70.35 

256. 00 

69.3 

78. 6 

29. 96 

44.9 

Chris Johnson 

70. 84 

249. 40 

66.9 

70.4 

30. 17 

39.6 

Tammie Green 

71.24 

239. 40 

70.4 

68.6 

29.64 

47.2 

Juli Inkster 

70.64 

251.60 

69.0 

69.8 

29.35 

46.0 

Liselotte Neumann 

71.28 

243.50 

66.6 

65.9 

29. 36 

48.4 

Laura Davies 

70. 86 

258. 40 

56.4 

68. 8 

29.90 

40.0 

Nancy Lopez 

70.70 

245. 50 

73.4 

73.0 

30. 23 

43. 1 

Betsy King 

71.52 

245. 70 

65.9 

66.9 

29.63 

37.6 

Lorie Kane 

71.47 

243. 30 

74.9 

69.4 

30. 22 

47.8 

Michelle McGann 

71.52 

256. 20 

57. 8 

69.6 

30.05 

51.0 

Donna Andrews 

71.01 

230. 60 

79. 1 

71.7 

29.94 

42.3 

Colleen Walkeer 

72. 31 

230. 00 

73.6 

63.3 

29.58 

40.9 

Rosie Jones 

71.77 

227. 20 

77.0 

66. 0 

29.86 

41.0 

Lisa Hackney 

71.34 

246. 00 

69.8 

65. 1 

29.91 

36.4 

Jane Geddes 

71.34 

261.20 

64.5 

70.0 

30. 15 

44.2 

Alison Nicholas 

72.31 

241.70 

71.8 

66.4 

30.43 

39.4 

Pat Hurst 

72. 14 

251.50 

62.4 

69. 1 

30.58 

29.9 

Cindy Figg-Currier 

71.90 

237. 20 

70. 1 

68.0 

30.40 

39.3 


a . 如果将每 18 杆球的平均得分作为自变量，请建立单变量的最佳估计回归方程。根 
据这个估计回归方程， LPGA 巡回赛的球手可以得到什么建议？ 

b . 利用本节所讲述的方法建立最佳估计回归方程，对参赛球手的平均得分作出估计。 

c . ( b ) 中所建立的估计回归方程是否能够合理解释比赛结果。 

d . Michele Redman 的相关数据如下 ： Driving Distance 为 231. 6码 ， Fairways 为 
75. 1% , Greens 为 65. 2 %， Putts 为 30. 69 ， Sand Saves 为 50. 5%。请估计这个职业 
高尔夫球手的平均得分。 

从 Stock Investor Pro 数据库中我们选取了 16家公司的资料组成样本，从这个样本中我 
们可以得到每一家公司的市盈率，净边际利润，以及销售量增长率 （ Sfod / m ; 咖 or 
Pro , American Association of Individual Investors , August 21 ， 1997) 。“行业”栏指的是 
每一个公式所处的行业，1 =能源一国际石油； 2=医疗保健一医药； 3 =其他。建立 
一个估计回归方程，预测市盈率。并对建立所推荐的估计回归方程的过程进行简要 
的讨论。 
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市盈率 

净边际利润 (％) 

销售量增长率 (％) 

行业 

Abbott Laboratories 

22.3 

23.7 

10.0 

2 

American Home Products 

22.6 

21.1 

5.3 

2 

Amoco 

16.7 

11.0 

16, 5 

1 

Bristol Meyers Squibb Co. 

25.9 

26.6 

9,4 

2 

Chevron 

18.3 

11.6 

18.4 

1 

Exxon 

18.7 

9.8 

8.3 

1 

General Electric Company 

13. 1 

13.4 

13. 1 

3 

Hewlett-Packard 

23.3 

9.7 

21.9 

3 

IBM 

17.3 

11.5 

5.6 

3 

Merck & Co. Inc. 

26.2 

25.6 

18.9 

2 

Mobil 

18, 7 

8.2 

8. 1 

1 

Pfizer 

34.6 

25. 1 

12.8 

2 

Pharmacia & Upjohn, Inc. 

22.3 

15.0 

2.7 

2 

Procter & Gamble Co. 

5.4 

14.9 

5.4 

3 

Texaco 

12.3 

7.3 

23.7 

1 

Travelers Group Inc. 

28.7 

17.8 

28.7 

3 


20. 参考练习 14, 利用年龄、血压、是否吸烟以及任何与这些变量相关的相互影响作为自变量，建立 
估计回归方程预测患病的风险。并对建立所推荐的估计回归方程的过程进行简要的讨论。 


16.5 残差分析 

在第14章和第15章中，我们阐述了如何利用残差分析对违背回归模型假设的一些情形进行 
检测。我们找出了与误差项 e 和模型的假设函数形式相违背的情形，并在本章中讨论了如果检测 
到这种违背情形可以釆取的措施。当我们需要一个不同的函数形式时，曲线和交互作用形式可以 
贯穿于一般的线性模型始终。当需要考虑几个自变量时，前面章节中的变量选择是比较适宜的。 

在第14和第15章中，我们也讨论了在确定估计回归方程的过程中怎样用残差分析确认异常观 
测值或者有影响的观测值。我们同时论述了当发现这些观测值时所应该釆取的一些步骤。在许多回 
归研究中，如果数据是随着时间推移而收集的，则误差项之间所存在的某种特殊的相关性可能会引 
起一些问题，这种特殊的相关性被称为序 列相关 (serial correlation ) 或者自 相关性 ( autocorrelation ) D 在 
本节中，我们将阐述怎样利用 杜宾-瓦特森检验 ( Durbin-Watson test ) 来检测显著的自相关性。 

自相关性和杜宾-瓦特森检验 

通常说来，商务和经济回归分析研究所需要的数据都是经过一段时间收集到的。一般情况 
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下，我们用 y , 表示 y 在 i 时期的数值，而 p 也是和《时期以前的数值相关。在这种情况下，我 
们说数据中存在自相关性（又称为序列相关）。如果 y 在 f 时期的数值和 y 在 i -1 时期的数值相 
关，则我们说数据中存在一阶自相关。如果 y 在 i 时期的数值和 y 在 f -2 时期的数值相关，则 
我们说数据中存在二阶自相关，依此类推。 

当数据中存在自相关时，回归模型的一个假设将无法得到 满足： 误差项将不再是独立的。如 
果是一阶自相关情形， f 时期的误差 e , 将和 1 时期的误差 eu 相关。图 16. 18 显示了一阶自 
相关的两种情形，其中图 A 显示的是正的自相关，图 B 显示的是负的自相关。如果存在正的自相 
关，某个时期残差为正，则下一个时期紧接着的残差也 为正； 某个时期残差为负，则下一个时期 
紧接着的残差也为负，依此类推。如果存在负的自相关，某个时期残差为正，则下一个时期紧接 
着的残差 为负； 某个时期残差为负，则下一个时期紧接着的残差为正，也是依此类推。 


y t -y, 


y t -y t 




图 16. 18 关于一阶自相关的两个数据集合 


当数据中存在自相关时，如果以假设的回归模型为基础进行统计显著性检验，则我们的检验 
会出现严重的误差。因此对自相关进行检验并采取正确的措施是相当重要的。接下来，我们将阐 
述如何利用杜宾-瓦特森统计量来检测一阶自相关。 

假设误差项 s 的值并不是独立的，而是以下面的形式相互 作用： 

e t = + Zi (16.16) 

式中， p 是绝对值小于 1 的参数，^是一个均值为0,方差为沪的正态分布的独立变量。从公式 
(16. 16) 中我们可以看到，如果 p =0, 则误差项之间互不相关，每一个误差项均值为 0, 方差为 
( T 2 。 在这种情况下，数据中不存在自相关性，回归假设也是可以满足的。如果 p >0, 则我们有正 
的自相 关性； 如果 p <0, 则自相关性为负。对于这两种情形的任意一种，关于误差项的回归假设 
均无法得到满足。 

关于自相关性的杜宾-瓦特森检验利用残差来确定 P 是否等于0。为了简化杜宾-瓦特森检 
验统计量的表示形式，我们用 6 = 来表示第 i 个残差。这样，杜宾-瓦特森检验统计量可 
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以通过下面的式子计算 出来: 


社宾-瓦特森检验 

^ - e t - i ) 2 



n 

(16.17) 


Xe ? 

t - 1 



如果残差的相邻值之间差距不大（正自相关性），杜宾-瓦特森检验统计量的数值将会比较 
小。如果残差的相邻值之间差距较大（负自相关性）， 杜宾- 瓦特森检验统计量的数值将会比较 
大。 

杜宾-瓦特森检验统计量的数值位于0到4之间，并且有两个数值表明了不存在自相关性的 
范围。杜宾和瓦特森建立了一个临界值表，可以确定他们的统计量什么时候检测出了自相关性的 
存在。表 16.8 给出了 a =0. 05， a =0. 025, a =0. 01的自相关性假设检验的上下临界值（心和 
^); 〃表示观测值的数目。待检的零假 设是： 数据中总是不存在自相关性。 

Ho ： p =0 

检测正自相关性的备择假设为 Ha ： P >0 

检测负自相关性的备择假设为 // a ： P <0 

同时还可以进行双边检验，在这种情况下，备择假设形式为 

Ha ： P^O 

图 16. 19显示了如何利用表 16.8 中的汍和办的数值来检测自相关性。其中图 A 说明了如何检 
测正自相关性，如果 d < d L ， 我们可以得出 结论： 存在正的自相关性。如果 d L 在 d 令 d v ， 我们可以 
认为检验失效，无法检测自相关性。如果 d > d v ， 则我们可以认为不存在正的自相关性。 

图 B 显示了对负自相关性的检测，如果^>4-汍，我们可以得出 结论： 存在负的自相关性。 
如果4-也在 d 在4-也，则无法判断自相关性的存在与否。如果 d <4- d Vf 我们可以得出 结论： 
不存在负的自相关性。 

图 C 显示了对自相关性的双边检测。如果或者 d >4- d Lf 我们可以拒绝讯，并得出 
结论： 存在自相关性。如果也矣山，或者4 -也 在4-心，我们可以认为检测失效，无法 
判断自相关性的存在与否。如果 ^<^<4-^, 则我们可以得出 结论： 不存在自相关性。 

如果已经确定了显著的自相关性，我们应该考察所假设的回归模型，看它是否忽略了一个或 
者几个关键自变量，这些关键自变量对因变量有着显著的时间排序影响。如果无法确认这些自变 
量，则我们可以在模型中引入一个度量观测次数的自变量(举个例子，对于第一次观测，这个变量 
可以取值为1,对于第二次观测，这个变量可以取值为2,依此类推），这个自变量的引入有时可 
以消除或者减小自相关性。当这些消除或者减小自相关性的尝试都不奏效时，我们可以对因变量 
或者自变量进行一些转换，或许会有所 帮助； 关于这种转换，我们可以在有关回归分析的更高级 
的教材中进行讨论。 
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表 16. 8 关于自相关性的杜宾-瓦特森检验临界值 


注意： 表中的数值是自相关性的单边杜宾-瓦特森检验临界值，如果是自相关性的双边杜宾-瓦特森检 
验，则显著性水平应该翻倍。 


对于 a =0.05, A 和爪显著点 
自变置个数 

1 2 3 4 5 


n 

dL 

d v 

dL 

dv 

dh 

d v 

dL 

dv 

d L 

dv 

15 

1.08 

1.36 

0. 95 

1.54 

0. 82 

1.75 

0.69 

1.97 

0.56 

2. 21 

16 

1. 10 

1.37 

0.98 

1.54 

0. 86 

1.73 

0. 74 

1.93 

0.62 

2. 15 

17 

1. 13 

1.38 

1.02 

1.54 

0. 90 

1.71 

0. 78 

1.90 

0. 67 

2. 10 

18 

1. 16 

1.39 

1.05 

1.53 

0. 93 

1.69 

0. 82 

1.87 

0.71 

2.06 

19 

1. 18 

1.40 

1.08 

1.53 

0. 97 

1.68 

0. 86 

1.85 

0. 75 

2.02 

20 

1.20 

1.41 

1. 10 

1.54 

1.00 

1.68 

0. 90 

1.83 

0. 79 

1.99 

21 

1.22 

1.42 

1. 13 

1.54 

1.03 

1.67 

0. 93 

1.81 

0. 83 

1.96 

22 

1.24 

1.43 

1. 15 

1.54 

1.05 

1.66 

0.96 

1.80 

0. 86 

1. 94 

23 

1.26 

1.44 

1. 17 

1.54 

1.08 

1.66 

0. 99 

1.79 

0. 90 

1.92 

24 

1.27 

1.45 

1. 19 

1.55 

1. 10 

1.66 

1.01 

1.78 

0. 93 

1.90 

25 

1.29 

1.45 

1.21 

1.55 

1. 12 

1.66 

1.04 

1,77 

0. 95 

1.89 

26 

1. 30 

1.46 

1,22 

1.55 

1. 14 

1.65 

1,06 

1.76 

0.98 

1.88 

27 

1.32 

1.47 

1.24 

1.56 

1. 16 

1.65 

1.08 

1.76 

1.01 

1. 86 

28 

1. 33 

1.48 

1.26 

1.56 

1. 18 

1.65 

1. 10 

1,75 

1,03 

1. 85 

29 

1.34 

1.48 

1,27 

1.56 

1.20 

1.65 

1. 12 

1.74 

1.05 

1.84 

30 

1.35 

1.49 

1.28 

1.57 

1.21 

1.65 

1. 14 

1.74 

1.07 

1.83 

31 

1. 36 

1.50 

1.30 

1.57 

1.23 

1.65 

1. 16 

1.74 

1.09 

1. 83 

32 

1.37 

1.50 

L 31 

1.57 

1.24 

1.65 

1. 18 

1.73 

1.11 

1. 82 

33 

1. 38 

1.51 

1.32 

1.58 

1.26 

1.65 

1, 19 

1.73 

1. 13 

1.81 

34 

1.39 

1.51 

1.33 

1.58 

L27 

1.65 

1.21 

1.73 

1. 15 

1.81 

35 

1.40 

1.52 

1, 34 

1.58 

1.28 

1.65 

1.22 

1.73 

1. 16 

1, 80 

36 

1.41 

1.52 

1. 35 

1.59 

1.29 

1.65 

1. 24 

1.73 

1.18 

1. 80 

37 

1.42 

1.53 

1.36 

1.59 

1.31 

1.66 

1.25 

1.72 

1. 19 

1.80 

38 

1.43 

1.54 

1. 37 

1.59 

1.32 

1.66 

1.26 

1.72 

1.21 

1.79 

39 

1.43 

1.54 

1. 38 

1.60 

1.33 

1.66 

1.27 

1.72 

1.22 

1.79 

40 

1.44 

1.54 

1.39 

1.60 

L34 

1.66 

1.29 

1.72 

1.23 

1.79 

45 

1.48 

1.57 

1.43 

1.62 

1. 38 

1.67 

1. 34 

1.72 

1.29 

1,78 

50 

1.50 

1.59 

1.46 

1,63 

1.42 

1.67 

1. 38 

1.72 

1. 34 

1.77 

55 

1.53 

1.60 

1.49 

1.64 

1.45 

1.68 

1.41 

1.72 

1. 38 

1.77 

60 

1.55 

1.62 

1.51 

1.65 

1.48 

1.69 

1.44 

1.73 

1.41 

1.77 

65 

1. 57 

1.63 

1.54 

1.66 

1.50 

1.70 

1.47 

1.73 

1.44 

1.77 

70 

1.58 

1,64 

1.55 

1.67 

1.52 

1.70 

1.49 

1.74 

1.46 

1.77 

75 

1.60 

1.65 

1.57 

1.68 

1.54 

1.71 

1.51 

1.74 

1.49 

1,77 

80 

1.61 

1.66 

1.59 

1.69 

1.56 

1.72 

1.53 

1.74 

1.51 

1.77 

85 

1.62 

1.67 

1.60 

1.70 

1.57 

1.72 

1.55 

1.75 

1.52 

1.77 

90 

1.63 

1.68 

1.61 

1.70 

L59 

1.73 

1.57 

1.75 

1.54 

1.78 

95 

1.64 

1.69 

1.62 

1.71 

1.60 

1.73 

1.58 

1.75 

1. 56 

1.78 

100 

1.65 

1.69 

1.63 

1.72 

1.61 

1.74 

1.59 

1.76 

1,57 

1.78 
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_ (续表) 

对于 a =0.05 ，和办显著点 
自变置个数 


1 2 3 4 5 


n 

d L 

dv 

dh 

dv 

d L 

dv 

dL 

dv 

dh 

dv 

15 

0. 95 

1.23 

0. 83 

1.40 

0.71 

1.61 

0. 59 

1.84 

0.48 

2.09 

16 

0.98 

1.24 

0.86 

1.40 

0. 75 

1.59 

0. 64 

1.80 

0. 53 

2. 03 

17 

1.01 

1.25 

0. 90 

1.40 

0. 79 

1.58 

0. 68 

1.77 

0.57 

1.98 

18 

1.03 

1.26 

0. 93 

1,40 

0. 82 

1.56 

0.72 

1.74 

0.62 

1.93 

19 

1.06 

1.28 

0.96 

1.41 

0. 86 

1.55 

0.76 

1.72 

0.66 

1.90 

20 

1.08 

1.28 

0. 99 

1.41 

0. 89 

1.55 

0.79 

1.70 

0. 70 

1.87 

21 

1. 10 

1.30 

1.01 

1.41 

0. 92 

1.54 

0.83 

1.69 

0. 73 

1.84 

22 

1. 12 

1.31 

1.04 

1.42 

0. 95 

1.54 

0. 86 

L68 

0.77 

1.82 

23 

1. 14 

1.32 

1.06 

1.42 

0.97 

1.54 

0, 89 

1.67 

0. 80 

1. 80 

24 

1. 16 

1.33 

1.08 

1.43 

1.00 

1.54 

0.91 

1.66 

0. 83 

1.79 

25 

L 18 

1.34 

1. 10 

1.43 

L02 

1.54 

0. 94 

1.65 

0. 86 

1.77 

26 

1. 19 

1.35 

1. 12 

1.44 

1.04 

1.54 

0. 96 

1.65 

0. 88 

1.76 

27 

1.21 

1.36 

1. 13 

1.44 

1.06 

1.54 

0. 99 

1.64 

0.91 

1.75 

28 

1.22 

1.37 

1.15 

1.45 

1.08 

1.54 

1.01 

1.64 

0.93 

1.74 

29 

1.24 

1.38 

1. 17 

1.45 

1. 10 

1.54 

1.03 

1.63 

0. 96 

1.73 

30 

1.25 

1.38 

1. 18 

1.46 

1. 12 

1.54 

1.05 

1.63 

0. 98 

1.73 

31 

1.26 

1.39 

1.20 

1.47 

1. 13 

1.55 

1.07 

1.63 

1.00 

1.72 

32 

1.27 

1.40 

1.21 

1.47 

1. 15 

1.55 

1.08 

L63 

1.02 

1.71 

33 

1.28 

1.41 

1.22 

1.48 

1. 16 

1,55 

1. 10 

1.63 

1.04 

1.71 

34 

1.29 

1.41 

1.24 

1.48 

1. 17 

1.55 

1， 12 

1.63 

1.06 

1.70 

35 

1.30 

1.42 

1.25 

1.48 

L 19 

1.55 

1. 13 

1. 63 

1.07 

1.70 

36 

1.31 

1.43 

1.26 

1.49 

1.20 

1.56 

1. 15 

1.63 

1.09 

1.70 

37 

1.32 

1.43 

1.27 

1.49 

1.21 

1.56 

1. 16 

1.62 

1.10 

1.70 

38 

1. 33 

1.44 

1.28 

1.50 

1.23 

1,56 

1. 17 

1.62 

1. 12 

1.70 

39 

1.34 

1.44 

1.29 

1.50 

1.24 

1.56 

L 19 

1.63 

1. 13 

1.69 

40 

1.35 

1.45 

L30 

1.51 

1.25 

1.57 

1.20 

1.63 

1.15 

1.69 

45 

1.39 

1.48 

1.34 

1.53 

1.30 

1.58 

1.25 

1.63 

1.21 

1.69 

50 

1.42 

1.50 

1.38 

1.54 

1.34 

1.59 

1.30 

1.64 

1.26 

1.69 

55 

1.45 

1.52 

1,41 

1.56 

1.37 

1.60 

1.33 

1.64 

1.30 

1.69 

60 

1.47 

1.54 

1.44 

1.57 

1.40 

1.61 

1.37 

1.65 

1.33 

1,69 

65 

1.49 

1.55 

1.46 

1.59 

1.43 

1.62 

1.40 

1.66 

1.36 

1.69 

70 

1.51 

1.57 

1.48 

1.60 

1.45 

1.63 

1.42 

1.66 

1.39 

1,70 

75 

1.53 

1.58 

1.50 

1,61 

1.47 

1.64 

1.45 

1.67 

1.42 

1.70 

80 

1,54 

1.59 

1.52 

1.62 

1.49 

1. 65 

1.47 

1.67 

1.44 

1.70 

85 

1. 56 

1.60 

1.53 

1.63 

1. 51 

1.65 

1.49 

1.68 

1.46 

1.71 

90 

1.57 

1.61 

1.55 

1.64 

1.53 

1.66 

1.50 

1.69 

1.48 

1,71 

95 

1.58 

1.62 

1.56 

1.65 

1.54 

1.67 

1.52 

1.69 

1.50 

1.71 

100 

1.59 

1.63 

1.57 

1.65 

1.55 

1.67 

1.53 

1.70 

1.51 

1.72 
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(续表) 


对于 or =0.05 ， A 和如 显著点 
自变量个数 

1 2 3 4 5 


12 

dh 

dv 

dh 

d v 

dh 

d v 

dh 

d v 

dh 

d v 

15 

0. 81 

1.07 

0.70 

1,25 

0.59 

1.46 

0.49 

1.70 

0. 39 

1.96 

16 

0.84 

1.09 

0. 74 

1.25 

0. 63 

1.44 

0. 53 

1. 66 

0. 44 

1.90 

17 

0. 87 

1. 10 

0. 77 

1.25 

0.67 

1.43 

0.57 

1.63 

0. 48 

1.85 

18 

0. 90 

1. 12 

0. 80 

1.26 

0.71 

1.42 

0.61 

1.60 

0,52 

1.80 

19 

0.93 

1. 13 

0.83 

1.26 

0.74 

1.41 

0. 65 

1.58 

0. 56 

1.77 

20 

0. 95 

1. 15 

0.86 

L27 

0,77 

1.41 

0.68 

1.57 

0.60 

1.74 

21 

0. 97 

1. 16 

0. 89 

L27 

0. 80 

1.41 

0. 72 

1. 55 

0.63 

1,71 

22 

1.00 

1. 17 

0.91 

1.28 

0, 83 

1.40 

0. 75 

1.54 

0. 66 

1.69 

23 

1.02 

1. 19 

0. 94 

L29 

0. 86 

1.40 

0. 77 

1.53 

0. 70 

1.67 

24 

1.04 

1.20 

0. 96 

1.30 

0. 88 

1.41 

0. 80 

1.53 

0. 72 

1.66 

25 

1.05 

1.21 

0. 98 

1.30 

0. 90 

1.41 

0, 83 

1. 52 

0.75 

1.65 

26 

1.07 

1.22 

1.00 

1.31 

0. 93 

1.41 

0. 85 

1.52 

0. 78 

1.64 

27 

1.09 

1.23 

1.02 

1.32 

0.95 

1.41 

0. 88 

1.51 

0.81 

L63 

28 

1. 10 

1.24 

1.04 

1.32 

0. 97 

1.41 

0. 90 

1.51 

0. 83 

1.62 

29 

1. 12 

1.25 

1.05 

1.33 

0. 99 

1.42 

0. 92 

1.51 

0. 85 

1.61 

30 

1. 13 

1.26 

1.07 

1.34 

1.01 

1.42 

0. 94 

1.51 

0. 88 

1.61 

31 

1. 15 

1.27 

1.08 

1.34 

1.02 

1.42 

0. 96 

1.51 

0. 90 

1.60 

32 

1. 16 

1.28 

1. 10 

1.35 

1.04 

1.43 

0. 98 

1.51 

0. 92 

1.60 

33 

1. 17 

1.29 

1. 11 

1.36 

1.05 

1.43 

1.00 

1.51 

0. 94 

1.59 

34 

1. 18 

1.30 

1. 13 

1.36 

1.07 

1.43 

1.01 

1.51 

0. 95 

1.59 

35 

1. 19 

1.31 

1. 14 

1.37 

1.08 

1.44 

1.03 

1.51 

0.97 

1.59 

36 

1.21 

1.32 

1. 15 

1.38 

1. 10 

1,44 

1.04 

1.51 

0.99 

1.59 

37 

1.22 

1.32 

1. 16 

1.38 

1. 11 

1-45 

1.06 

1.51 

1.00 

1.59 

38 

1.23 

1.33 

1. 18 

1.39 

1. 12 

1.45 

1.07 

1.52 

1.02 

1.58 

39 

1.24 

1.34 

1. 19 

1.39 

1. 14 

1.45 

1,09 

1.52 

1.03 

1.58 

40 

1.25 

1.34 

1.20 

1.40 

1. 15 

1.46 

1. 10 

1.52 

1.05 

1.58 

45 

1. 29 

1.38 

1.24 

1.42 

1.20 

1.48 

L 16 

1.53 

1， 11 

1.58 

50 

1.32 

1.40 

1.28 

1.45 

1.24 

1,49 

1.20 

1.54 

1. 16 

1.59 

55 

1.36 

1.43 

1.32 

L47 

1.28 

1,51 

1.25 

L55 

1.21 

L59 

60 

1.38 

1.45 

1. 35 

1.48 

1.32 

1.52 

1.28 

1.56 

1.25 

1.60 

65 

1.41 

1.47 

1.38 

1.50 

1.35 

1.53 

1,31 

1.57 

1. 28 

1.61 

70 

1.43 

1.49 

1.40 

1.52 

1.37 

1.55 

1.34 

1.58 

1， 31 

1.61 

75 

1.45 

1.50 

1.42 

1.53 

1,39 

1.56 

1.37 

1.59 

1.34 

1.62 

80 

1.47 

1.52 

1.44 

1.54 

1.42 

1.57 

1.39 

L60 

1.36 

1,62 

85 

1.48 

1.53 

1.46 

1.55 

1.43 

1, 58 

1.41 

1.60 

1.39 

1.63 

90 

1. 50 

1.54 

1.47 

1.56 

1.45 

1.59 

1.43 

1.61 

1.41 

1.64 

95 

1.51 

1.55 

1.49 

1.57 

1.47 

1.60 

1.45 

1.62 

L42 

1.64 

100 

1.52 

1.56 

1.50 

1.58 

1.48 

1.60 

1.46 

1.63 

1.44 

1.65 


资料来源： J. Durbin and G. S. Watson, “Testing for Serial Correlation in Least Squares Regression II， ” Biometrika, 38(1951 )， 
159- 178 页。 
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0 dh du 2 


图 A : 检测正自相关性 



dh du 2 4 — du 4 — 4 

图 B : 检测负自相关性 



0 dh du 2 4 — <iu A — dh 4 


图 C : 自相关性的双边检测 

图 16.19 利用杜宾-瓦特森检验对自相关性假设进行检测 

请注意，杜宾-瓦特森检验表所列出的最小样本容量为 15, 因为当样本容量比较小时，检验 
通常是无效的。事实上，许多统计学家认为，如果要使检验结果比较有价值，样本容量至少应该 
为 50。 




应用 

21. 考察练习19中的数据集合。 

a . 建立一个估计回归方程，在已知边际利润的情况下，预测市盈率。 

自沏 4 题 

b . 根据 ( a ) 中所建立的估计回归方程，以观测数据出现的先后为顺序，画出残差散点 
图。在这些数据中是否存在自相关性？解释原因。 
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C . 在 a=0.05 的显著性水平下，检测数据中的正自相关性。 

22. 参考 16. 3 节表 16. 6 中的 Cravens 数据集合，在 16. 3 节中，我们已经建立了包含变量 Ac- 
counts 、 AdvExp 、 Poten 和 Share 的估计回归方程，这个方程的修正判定系数为 88, 1% 。 在 
a=0. 05 的显著性水平下，利用杜宾-瓦特森检验确定这些数据中是否存在正的自相关性。 


16 . 6 关于方差分析和试验设计的多元回归方法 

在 15.7 节中，我们讨论了虚拟变量在多元回归中的应用。在本节中，我们将阐述另一种在多 
元回归方程中应用虚拟变量解决方差分析和试验设计问题的方法。我们在第13章中介绍了国民 
(National) 计算机公司 （NCP) 的例子，为了描述方差分析的多元回归方法，我们将对 NCP 公司的示 
例应用这种方法。 

回顾一下 NCP 公司的例子，这个公司在亚特兰大、达拉斯和西雅图建有工厂，生产打印机和 
传真机。为了测量员工对全面质量管理的理解程度，公司的管理人员从每个工厂随机抽取6名员 
工组成样本，对他们进行质量管理意识的考核。管理者计划用18名员工的考核成绩来确定平均考 
核成绩在每一个工厂是否相同。 

关于这个问题的回归方法，我们首先定义两个虚拟变 
表 1 6 .9 关于 NCP 公司问题的虚拟变 置量， 这两个虚拟变量用于表示每一个样本观测值是从哪一 

~~ r 2 个工厂选取的。因为 NCP 公司有3个工厂，即3个总体， 

0 0观测值与亚特兰大的工厂相关因此我们需要定义两个虚拟变量，一般情况下，如果正在 
1 0观测值与达拉斯的工厂相关 研究的问题有 A 个不同的直观水平或者总体，则我们需要 
0 1 观测值与西雅图的 ir 相关 定义 A-1 个虚拟变量。对于 NCP 公司的例子，我们定义 

了两个虚拟变量和$2，如表 16. 9所示。 

我们可以利用虚拟变量^和^将质量管理意识考核的成绩 y 与员工所在的工厂联系起来。 

E(y ) =质量管理意识考核成绩的期望值 

= /3o + )8i^i + pixi 

因此，如果我们对在亚特兰大工厂工作的员工的考核期望值感兴趣，则需要设虚拟变量^ = 
X2 = 0 o 于是多元回归方程简化为 

E( y) = ^8o + /3i x0 + ) 82x0 = ^b 

这样我们就可以将饵看做是亚特兰大工厂的员工考核成绩的期望值。 

然后，我们考察其他工厂的多元回归方程形式，对于达拉斯的工厂 ， ^i = l , & = 0 ,有 

E( y) = /3 o + /3 i x 1 + ) 82xO = ^ 8o + /3 i 

对于西雅图的工厂，^= 0 ,奶= 1 ，有 


E( y) = ^0 o + )Si x0 + ) 82xl =^ 8b + )82 
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我们可以看到 j 0 b + A 表示的是达拉斯工厂的员工考核成绩的期望值，饵+炔表示的是西雅图工厂 
的员工考核成绩的期望值。 

现在，我们估计系数姝，你，炔的数值，因此我们需要计算出每一个工厂考核成绩期望值的 
估计。将包含％ 1 ，&和 y 的18个观测值的样本数据输入 Minitab 。 实际输入数据如表 16. 10所 
示， Minitab 的输出结果如图16, 20所示。 


表16, 10 NCP 问题的输入数据 


亚特兰大 



达拉斯 



西雅图 


JCi 

X2 

y 

JCi 

X2 

y 

Xi 

Xi 

y 

0 

0 

85 

1 

0 

71 

0 

1 

59 

0 

0 

75 

1 

0 

75 

0 

1 

64 

0 

0 

82 

1 

0 

73 

0 

1 

62 

0 

0 

76 

1 

0 

74 

0 

1 

69 

0 

0 

71 

1 

0 

69 

0 

1 

75 

0 

0 

85 

1 

0 

82 

0 

1 

67 


The regression equation is 


Y = 79.0 - 5 

.00 XI - 

13.0 X2 




Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

79.000 

2.186 

36.14 

0.000 


XI 

-5.000 

3.091 

-1.62 

0.127 


X2 

-13.000 

3.091 

-4.21 

0.001 


S = 5.354 

R-sq 

= 54.5% 

R-sq(adj)= 

48.5% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

2 

516.00 

258.00 

9.00 

0.003 

Error 

15 

430.00 

28.67 



Total 

17 

946.00 





图 16.20 NCP 问题的多元回归输出结果 


在图16_20中，我们可以看到择， /8 i ，的估计值分别为= 79, 61 = - 5和 62 = _ 13。因 
此，每一个工厂考核成绩的最佳估计期望值如下 所示： 

工厂 釕 y ) 估计值 

亚特兰大 bo = 19 

达拉斯 6 0 + 61 =79-5 =74 

西雅图 6o + 62 = 79 - 13 = 66 
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请注意，根据回归分析所得的每一个工厂考核成绩的最佳估计期望值与前面应用方差分析 
( ANOVA ) 所得的样本均值相同。 

现在，让我们来考察一下怎样利用软件包的多元回归输出结果来对三个工厂的均值之间的差 
距进行 ANOVA 检测。首先，我们观察到，如果均值之间没有差距，则有 

达拉斯工厂的期望值 £：( y )- 亚特兰大工厂的期望值 E ( y )=0 
西雅图工厂的期望值 E ( y )- 亚特兰大工厂的期望值 E ( y ) =0 

由于亚特兰大工厂饵等于五（ 7 )，达拉斯工厂饵+ A 等于五（: r )， 所以第一个差距等于 （姝 + A ) 
- ja > = A 。 除此之外，由于西雅图工厂烽+历等于 E { y ), 所以第二个差距等于（绎+炔）-烊= 
炔。如果饵=0,炔=0则我们可以得出 结论： 三个工厂考核成绩的均值之间并没有任何差距。因 
此，对这三个工厂考核成绩期望值五 （ y ) 之间的差距进行检验的零假设可以陈述 如下： 

Ho : /3 i = = 0 

回顾一下关于对回归关系的显著性进行检验的零假设，对于这种类型的假设，我们必须将 
MSR / MSE 的数值与 F 分布的临界值进行比较，而且这个 F 分布的分子自由度应该等于回归平方 
和的自由度，分母自由度应该等于误差平方和的自由度。在当前的 NCP 示例中，回归平方和有两 
个自由度，误差平方和有15个自由度。因此，我们可以得到如下的 MSR 和 MSE 值： 


于是， F 的计算值为 


F : 


SSR 

516 

2 

: 1 : 

SSE 

430 

= 15 

- 15 = 

MSR 

258 

MSE ~ 

28.67 ' 


258 


28.67 


在 a = 0.05 的显著性水平下， F 临界值为3.68,它的分子自由度为2,分母自由度为15。因为 F 
的观测值大于 3. 68的临界值，所以我们可以拒绝零假设 ft : A = i & = 0, 并得出 结论： 三个工厂 
的均值是不同的。除此之外，我们利用 p - 值方法也可以拒绝零假设队：译=啟=0,因为 p - 值 
= 0. 003< a = 0. 05 o 



方 


23. 


法 


考察一个完全随机的设计，它包含四种 情形： A 、 B 、 C 和 D 。 建立一个估计回归方 
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程，对这些数据进行分析，并定义所有的变量。 

自测题 

24. 一个随机群组设计包含3种情形，2个群组，建立一个多元回归方程对这些数据进行分析，并 

定义所有的变量。 . 

25. 某个双因素设计包含两个 因素： A 和 B 。 其中， A 有两个水平， B 有三个水平，建立一个多元 
回归方程对这个设计进行分析，并定义所有的变量。 

应用 

26. Jacobs 化学公司打算对原料在机器上搅拌的时间（分钟）进行估计，搅拌机器由3个不 
同的工厂生产。为了限制检测的成本，每一个生产厂商生产的机器都搅拌4批原料。 
搅拌时间如下 所示： 


生产厂商1 

生产厂商2 

生产厂商3 

20 

28 

20 

26 

26 

19 

24 

31 

23 

22 

27 

22 


a . 建立一个多元回归方程，对这些数据进行分析。 

b . 回归模型中关于系数的最佳估计量是多少？ 

c . 根据回归模型中的系数，为了检测3家生产厂商所生产的机器搅拌时间是否一样， 
我们应该作出什么样的假设？ 

d . 对于 a = 0. 05的显著性水平，我们可以得出什么结论？ 

27. 有4种涂料产品的广告宣称它们的干燥时间一样，为了对生产厂商的宣传真实性作出检测， 
我们从每一种涂料产品里面都抽出5份作为样本进行检测。每一个样本从第一道工序开始干 
燥到可以应用第二道工序所需的平均时间记录 如下： 


涂料1 

涂料2 

涂料3 

涂料4 

128 

144 

133 

150 

137 

133 

143 

142 

135 

142 

137 

135 

124 

146 

136 

140 

141 

130 

131 

153 


a . 在 a =0. 05的显著性水平下，检验4种涂料干燥所需的平均时间之间的差距。 

b . 涂料2干燥所需的平均时间估计量是多少？这个估计量是怎样从计算机输出结果中得到 
的？ 

28. 一个汽车销售商对发动机进行调试，调试的设备有两种，一种是计算机控制的分析仪，另一 
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种是电子控制的分析仪，为了确定调试发动机所需要的时间是否取决于调试设备的种类，销 
售商做了一项检测。由于调试微型汽车、中型汽车和重型汽车发动机所需的时间都不一样， 
所以在检测中将汽车的类型作为分组根据，检测结果如下 所示： 


车型 




微型 

中型 

重型 

分析仪 

计算机控制 

50 

55 

63 


电子控制 

42 

44 

46 


在 a =0. 05的显著性水平下，对调试所需时间的差别进行显著性检验。 

29. 报刊上所刊登的广告，有尺寸设计大小和策划方式的不同，这种不同有可能影响到邮购商品 
的人数，为了检测这种不同，我们考察三种广告设计和两种尺寸大小，数据如下所示。在 
05的显著性水平下，检验因广告设计、尺寸大小以及相互作用所产生的显著影响。 


广告尺寸 




小 

大 


A 

8 

12 



12 

8 

设计 

B 

22 

26 



14 

30 


C 

10 

18 



18 

14 



在本章我们讨论了模型设计者用于确认最佳估计回归方程的一些概念。首先，我们介绍了一 
般线性模型的概念，并利用这个概念阐述了如何第将14章和第15章中所讨论的方法扩展到曲线 
关系和相互作用的处理上来。然后，我们讨论了如何利用因变量的变换来解决误差项中非常数方 
差的问题。 

在回归分析的许多应用中，我们经常需要考虑大量的自变量。因此，我们介绍了基于 F 统计 
量的一般性方法，利用这些方法我们可以在回归模型中添加或者删除自变量。然后，我们介绍了 
包含25个观测值和8个自变量的大问题。可以看到，在自变量的数目很多时，迫切需要解决的问 
题是找出一个关于自变量的最佳子集。为了解决这个问题，我们讨论了几种变量选择的方法•.逐 
步回归法、前向选择法、后向消元法和最佳子集回归法。 

在 16.5 节中，我们将残差分析的应用扩展到了检测自相关性的杜宾-瓦特森检验。本章最后 
总结了如何利用多元回归模型来解决方差分析和实验设计问题的方法。 
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木语辞义 


一般线性模型： 模型形式为 ：y = / 3 o + / 3 i zi + Z2 +…+ / 3 pZ P + s ， 对于其中每一个自变量 z ;_， ; = 1, 

2,…， /) 都是变量 Xl , %2，…，似的函数，所收集的数据都是关于 XI ，％2, 

…， 私的。 

交互 作用： 两个自变量共同作用所造成的影响。 

变 量选择 方法： 对一个回归模型选择自变量子集的方法。 

自相 关性： 对于在时间上持续连贯的点，所出现的误差项之间的相关性。 

序列 相关： 同自相关性。 

杜宾-瓦特森检验： 确定是否存在一阶自相关的检验。 


重要公 



—般线性模型 


y = /3o + /3\ zi + /3 iZ 2 + •** + ^,Zp + s 


添加或者删除 p - q 个变量的一般性 F 检验 


SSE(a；i jX 2 , ,x q ) - SSE(xi ，奶， … ,x q ,x q +\,x P ) 


F 


P~Q 


自相关误差项 
杜宾-瓦特森检验 


SSE ( a ： i ，:^2,…，如 ，知 +1，…，知） 
n - p - 1 


= pe t -i + Zt 


d 


^ (e* - e t -i)' 

t = 2_ 

lef 


(16.1) 


(16.13) 

(16.16) 


(16.17) 



30. 许多国际基金与美国的一些基金相比较而言投资价值取向更为理性。因为国际市场和美国 
国内市场的走势方向往往是不同的，在国际市场的投资往往能够降低投资者的整体风险。 
下表显示的是 20 家国际基金的基金类型（是否有抵押金），管理费 率（％)， 安全等级 (0 = 最 
危险，10 =最安 全）， 以及从 1999 年 12 月 10 日以来的一年的业绩表现 （MufwaZ 
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CD 光盘数据 


MutFunds 


February 2000) 0 



基金类型 

管理费率 (％) 

安全等级 

业绩(％ ) 

ABN AMRO Int’ 1 Equity “Com” 

无抵押金 

1.38 

6.9 

36 

Accessor Int’l Equity “Adv” 

无抵押金 

1.59 

7. 1 

42 

Artisan International 

无抵押金 

1.45 

6.8 

72 

Columbia Int ’ 1 Stock 

无抵押金 

1.56 

7. 1 

54 

Concert Inv. “A”Int’ 1 Equity 

有抵押金 

2 . 16 

6.3 

116 

Diversified Invstr Int’l Eqty 

无抵押金 

1.40 

7.3 

54 

Driehaus Int’l Growth 

无抵押金 

1 , 88 

6 . 5 

92 

Founders Passport 

无抵押金 

1.52 

7.0 

86 

Guardian Baillie Fifford Int* 1 “A” 

有抵押金 

1.62 

7. 1 

37 

Jamestown Int ’ 1 Equity 

无抵押金 

1.56 

7. 1 

35 

Julius Baer Int’l Equity 

无抵押金 

1.79 

6.9 

71 

Aetna “I”Int’l 

无抵押金 

1.35 

7.3 

46 

Pilgrim Int’l Value “A” 

有抵押金 

1.80 

1.1 

42 

Fidelity Diversified Int’l 

无抵押金 

1.48 

7.5 

42 

Putnam “A ’Int’l Growth 

有抵押金 

1.59 

6.9 

55 

Sit Int’l Growth 

无抵押金 

1.50 

6.9 

49 

Touchstone Int’l Equity “A” 

有抵押金 

1.60 

7.5 

35 

United Int’l Growth “A” 

有抵押金 

1.28 

7. 1 

47 

Vontobel Int’ 1 Equity 

无抵押金 

1,50 

. 7.0 

43 

Waddell & Reed Int’l Growth “B” 

有抵押金 

2. 46 

7.0 

75 


a . 利用这一章所介绍的方法建立一个估计回归方程，根据所提供的数据估计基金的业 
绩。 

b . ( a ) 中所建立的估计回归方程是否给出了 一个比较好的拟合？解释原因。 

c . Acorn International 是一个免收发行费的基金，每年管理费率为1.12%，安全等级 
为7.6。利用 （ a ) 中所建立的估计回归方程估计 Acorn International 基金一年来的业 

绩。 


31. 某项研究调查了审计延迟(从一个公司财务年度的末尾到审计报表发布的日期之间的时间）与 
描述客户和审计师的变量之间的关系。这项研究所涉及的一些自变量定义 如下： 


行业 一个虚拟变量，如果值为1,则代表该公司为实业公司；如果值为0，则表示该 

公司为银行、存贷或者保险公司。_ 

公开与否 一个虚拟变量，如果值为1，则代表该公司的证券交易可以通过证券交易所或 

者柜台 进行； 如果值为0,则表示该公司不能通过上述方式交易。 




质量 
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内部全面质量控制的度量，由审计师裁定，有5个等级，从“实际空白”1到 
“优秀” 5。 

完成与否 由审计师裁定的一个度量，范围从1到4,其中1代表“所有工作都是在年终 

以后才进行的”，4代表“大部分工作在年终之前已经完成”。 

从40个公司的样本中抽取了以下用于进行此项研究的 数据： 



CD 光盘数据 


Audit 


审计延迟 


62 

45 

54 

71 

91 

62 

61 

69 

80 

52 

47 

65 

60 

81 

73 
89 
71 
76 
68 
68 
86 
76 
67 
57 
55 
54 
69 
82 
94 

74 

75 


行业 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

0 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 

1 


公开与否 
0 
1 
0 
1 
0 
0 
0 
1 
0 
0 
0 
1 
0 
0 
0 
0 
0 
0 
0 
0 
0 
1 
0 
0 
1 
0 
0 
0 
0 


质 ft 

3 

3 

2 


4 
3 

5 
1 
5 
3 
2 
1 
1 
2 
2 
5 
2 
1 
5 
2 

3 
2 

4 
3 

5 

3 
5 
1 
5 

4 


完成与否 
1 

3 
2 
2 
1 

4 
2 
2 
1 
3 
2 
3 

3 
2 
2 
1 

4 
2 
2 
2 
2 
1 
3 
2 
2 
2 
3 
1 
1 
2 
3 
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审计延迟 

行业 

公开与否 

质 ft 

( 续表） 

完成与否 

69 

1 

0 

2 

2 

71 

1 

0 

4 

4 

79 

1 

0 

5 

2 

80 

1 

0 

1 

4 

91 

1 

0 

4 

1 

92 

1 

0 

1 

4 

46 

1 

1 

4 

3 

72 

1 

0 

5 

2 

85 

1 

0 

5 

1 


a . 建立一个估计回归方程，包含所有的自变量。 

b . ( a ) 中所建立的估计回归方程是否给出了一个比较好的拟合？解释原因。 

c . 将“审计延迟”作为“完成与否”的函数，画出关于它们的散点图。这个散点图表 
明“审计延迟”与“完成与否”之间存在什么关系？ 

d . 以“审计延迟”与“完成与否”之间的关系的观测值为基础，建立另一个可供选择 
的估计回归方程，与 U ) 中所建立估计回归方程相比，它能够解释“审计延迟”尽 
可能多的变异性。 

32. 参考练习31中的数据，建立一个仅用“行业”来预测“审计延迟”的模型。在 a =0.01 的显 
著性水平下，对这些数据中的正自相关性进行检验。 


33. 参考练习31中的数据。 

a . 建立一个估计回归方程，以“行业”和“质量”为自变量，预测“审计延迟”。 

b . 根据 （ a ) 中所建立的估计回归方程，将残差作为数据出现先后顺序的函数，画出残差图。 
在数据中是否存在自相关性？解释原因。 

c . 在 a = 0. 05的显著性水平下，对这些数据中的正自相关性进行检验。 


34. 



CD 光盘数据 


Browsing 


我们对购物者逛商店的行为进行了一项研究，可以把购物者分成 几类： 逛商店是有目 
的的，准备购买 商品； 目的性不是很明确，碰到合适的商品也会 购买； 仅仅是为了消 
遣而逛商店，不准备购买商品。对于研究中的每一类购物者，有一个度量标准反映了 
她在商店中感到舒适的程度。分值越高，则舒适程度越高。假设以下的数据即来自这 
项研究，在 a =0.05 的显著性水平下，检测三种类型购物者舒适程度之间的差异。 

准备购物 有可能购物 不准备购物 

4 5 5 


5 6 7 

6 5 5 



4 
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准备购物 

3 

4 

5 
4 


有可能购物 
7 

4 
6 

5 


(续表） 

不准备购物 

4 

6 

5 
7 


35. 



CD 光盘数据 
Election 


下面的数据显示了道琼斯工业平均指数 （ DJIA ) 在8任总统的每一个四年任期之内的变 
化 （ 1998 Stock Trader’s Almanac ) ,利用回归分析来确定政党和总统任期对道琼斯工业 
平均指数变化的影响。 


总统 

政党 

当选年 

任期年份 

DJIA 每年的变化 

约翰逊 

民主党 

1964 

第一年 

10.9 

约翰逊 

民主党 


第二年 

-18.9 

约翰逊 

民主党 


第三年 

15. 2 

约翰逊 

民主党 


第四年 

4.3 

尼克松 

共和党 

1968 

第一年 

- 15.2 

尼克松 

共和党 


第二年 

4. 8 

尼克松 

共和党 


第三年 

6. 1 

尼克松 

共和党 


第四年 

14.6 

尼克松 

共和党 

1972 

第一年 

—16. 6 

尼克松 

共和党 


第二年 

-27. 6 

尼克松 • 

共和党 


第三年 

38.3 

尼克松 • 

共和党 


第四年 

17.9 

卡特 

民主党 

1976 

第一年 

- 17. 3 

卡特 

民主党 


第二年 

-3. 1 

卡特 

民主党 


第三年 

4.2 

卡特 

民主党 


第四年 

14.9 

里根 

共和党 

1980 

第一年 

-9.2 

里根 

共和党 


第二年 

19.6 

里根 

共和党 


第三年 

20.3 

里根 

共和党 


第四年 

-3.7 

里根 

共和党 

1984 

第一年 

-27.7 

里根 

共和党 


第二年 

22.6 

里根 

共和党 


第三年 

2.3 

里根 

共和党 


第四年 

11. 8 

布什 

共和党 

1988 

第一年 

27.0 

布什 

共和党 


第二年 

-4.3 

布什 

共和党 


第三年 

20.3 

布什 

共和党 


第四年 

4.2 
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(续表) 


总统 

政党 

当选年 

任期年份 

DJIA 每年的变化 

克林顿 

民主党 

1992 

第一年 

13.7 

克林顿 

民主党 


第二年 

2 . 1 

克林顿 

民主党 


第三年 

33.5 

克林顿 

民主党 


第四年 

26.0 


* 由于尼克松总统在1974年8月辞职，福特接任总统并完成了尼克松总统的任期。 


案例研究1失业问题研究 

一项研究提供了与制造业工人失业周数相关的一些变量的数据，在这项研究中，因变量 
( weeks ) 被定义为工人由于被解雇而失业的周数，同时在研究中应用到了以下的自 变量： 


Age 

工人的年龄 


Educ 

受教育的年限 


Married 

一个虚拟 变量： 

1表示已婚，0表示未婚 

Head 

一个虚拟 变量： 

1表示该工人为户主，0表示该工人不是户主 

Tenure 

原来工作的工龄 


Manager 

一个虚拟 变量： 

1表示所做的工作为管理工作，0表示不是管理工作 

Sales 

一个虚拟 变量： 

1表示所做的工作为销售工作，0表示不是销售工作 


假设下面的数据来自50个失业工人。 


管理报告 



Layoffs 


利用这一章和前面章节中所阐述的方法，对这个数据集合进行分析。并在管理报 
告中进行总结，包括关键的统计结果、结论和建议。并且总结还应该在附录中给出必 
需的技术资料(计算机输出结果、残差图，等等）。 


失业周数 

年龄 

受教育年限 

婚姻状况 

是否户主 

原工龄 

是否做管理工作是否为销售人员 

37 

30 

14 

1 

1 

1 

0 

0 

62 

27 

14 

1 

0 

6 

0 

0 

49 

32 

10 

0 

1 

11 

0 

0 

73 

44 

11 

1 

0 

2 

0 

0 

8 

21 

14 

1 

1 

2 

0 

0 

15 

26 

13 

1 

0 

7 

1 

0 

52 

26 

15 

1 

0 

6 

0 

0 

72 

33 

13 

0 

1 

6 

0 

0 


118 0 0 


11 


27 


12 
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(续表) 


失业周数 

年龄 

受教育年限 

婚姻状况 

是否户主 

原工龄是否做管理工作 

是否为销售人员 

13 

33 

12 

0 

1 

2 

0 

0 

39 

20 

11 

1 

0 

1 

0 

0 

59 

35 

7 

1 

1 

6 

0 

0 

39 

36 

17 

0 

1 

9 

1 

0 

44 

26 

12 

1 

1 

8 

0 

0 

56 

36 

15 

0 

1 

8 

0 

0 

31 

38 

16 

1 

1 

11 

0 

1 

62 

34 

13 

0 

1 

13 

0 

0 

25 

27 

19 

1 

0 

8 

0 

0 

72 

44 

13 

1 

0 

22 

0 

0 

65 

45 

15 

1 

1 

6 

0 

0 

44 

28 

17 

0 

1 

3 

0 

1 

49 

25 

10 

1 

1 

1 

0 

0 

80 

31 

15 

1 

0 

12 

0 

0 

7 

23 

15 

1 

0 

2 

0 

0 

14 

24 

13 

1 

1 

7 

0 

0 

94 

62 

13 

0 

1 

8 

0 

0 

48 

31 

16 

1 

0 

11 

0 

0 

82 

48 

18 

0 

1 

30 

0 

0 

50 

35 

18 

1 

1 

5 

0 

0 

37 

33 

14 

0 

1 

6 

0 

1 

62 

46 

15 

0 

1 

6 

0 

0 

37 

35 

8 

0 

1 

6 

0 

0 

40 

32 

9 

1 

1 

13 

0 

0 

16 

40 

17 

1 

0 

8 

1 

0 

34 

23 

12 

1 

1 

1 

0 

0 

4 

36 

16 

0 

1 

8 

0 

1 

55 

33 

12 

1 

0 

10 

0 

1 

39 

32 

16 

0 

1 

11 

0 

0 

80 

62 

15 

1 

0 

16 

0 

1 

19 

29 

14 

1 

1 

12 

0 

0 

98 

45 

12 

1 

0 

17 

0 

0 

30 

38 

15 

0 

1 

6 

0 

1 

22 

40 

8 

1 

1 

16 

0 

1 

57 

42 

13 

1 

0 

2 

1 

0 

64 

45 

16 

1 

1 

22 

0 

0 

22 

39 

11 

1 

1 

4 

0 

0 

27 

27 

15 

1 

0 

10 

0 

1 

20 

42 

14 

1 

1 

6 

1 

0 

30 

31 

10 

1 

1 

8 

0 

0 

23 

33 

13 

1 

1 

8 

0 

0 
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案例研究2职业高尔夫巡回赛统计量分析 



CD 光盘数据 
PGATour 


职业高尔夫球手联盟 （ PGA ) 保留有参加巡回赛的球手的比赛成绩和收入的统计 
资料。1997年年底比赛成绩统计资料被取名为 PGA Tour 数据集合 （ GoZ / weA ， 
November 15,1997)。数据集合的每一行对应着一名职业髙尔夫巡回赛球手，并且 
排名的顺序代表着选手参加1997年 PGA 巡回赛每一项赛事的收人高低，每一轮比 
赛包括18个高尔夫球洞。 PGA 巡回赛的每一项赛事通常由安排在4天内的4场比 
赛组成。星期四和星期五两轮比赛的得分被用来限制星期六和星期日两轮比赛的场 
地规模。因此，选手只有在星期四和星期五两轮比赛中取得足够得分，才有资格参加 
星期六和星期日的这两轮比赛，即通过了资格赛，这种赛制被称为资格赛选拔。 


参赛总收入 
参赛次数 
参赛轮数 
资格选拔次数 
60分赛事次数 
低于标准杆数的赛事次数 
平均击球次数 
平均科分 
码数 


入球道比 


入场内比 


进洞比 


救球比 


参加整个 PGA 巡回赛的总收入 

参加 PGA 巡回赛赛事的数量 

参加 PGA 巡回赛所完成赛事的轮数 

选手通过资格赛选拔的赛事数量 

参赛得分为60的赛事数量 

参赛得分低于标准杆数的赛事数量 

在每一轮比赛中得分少于标准杆数的平均击球次数 

所有赛事的平均得分 

每次击球所达到的平均码数(击球长度是从击球点 
到球停止滚动之间的距离，不考虑高尔夫球是否落 
在高尔夫球道里。击球距离是在每次比赛的两个球 
洞之间测量） 

每轮比赛中高尔夫球手从发球处把球发出以后，球 
能够落在高尔夫球道里的次数 
高尔夫球手能够将高尔夫球按规则击人球洞场地的 
平均次数，（如果高尔夫球的任意部分接触到球洞 
场地的轻击区域，并且球入洞的杆数与标准杆数之 
间的差距多于2杆，则我们应该根据比赛规则将比 
赛场地列入考虑因素范围之内。） 

根据比赛规则，高尔夫球手将球洞场地上的高尔夫 
球轻击入洞的平均杆数 

高尔夫球被打入球场旁边的沙地时，高尔夫球手可 
以克服地面起伏不平的困难将球救回的比例（克服 
地面起伏不平指 的是： 最多只能用两杆，即将球救 
出沙洞，并击入球洞中。） 
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管理报告 

假设你被 PGA 巡回赛的行政管理人员聘用，你的职责是在每年一度的 PGA 巡回赛宴会上介 
绍赛事数据分析。 PGA 巡回赛的管理人员会询问，是否可以利用这些数据，比如资格选拔次数、 
码数、人球道比等等，来确定高尔夫球手的比赛成绩，这些数据对高尔夫球手得分和比赛收人有 
什么样的影响？利用前面章节和本章所介绍的方法对这些数据进行分析，并为 PGA 巡回赛的管理 
人员准备一份报告，在报告中简明扼要地介绍你的分析，包括关键的统计结果、结论和建议，在 
附录中应该给岀你认为比较合适的技术资料。 


案例研究3预测大学的毕业率 



CD 光盘数据 
GradRate 


对大学的管理部门来说，招收进人学院或者大学的学生能够顺利毕业的比率是一 
个很重要的统计量。与大学学生顺利毕业率相关的一些因素 包括： 人数少于20的班 
级比例，人数多于50的班级比例，师生比，申请这所大学的学生被录取的人数占总 
申请人数的比例，大一学生中高中成绩位于所在高中前10%的学生比例，以及这所 
大学的学术声誉。为了研究这些因素对毕业率的影响，我们收集了 48所全国性大学 


的数据资料 （ America ’s Best Colleges , 2000 年版)对这些数据资料的相关描述如下: 


地区 

毕业率 

人数小于20的班级比例 
人数多于50的班级比例 
师生比 
录取率 

前10%的学生所占比例 
学术声誉分数 


该所大学位于所在区域的哪一部分（北部，南部，中 
西部，西部） 

招收进人这所大学的学生顺利毕业的比例 

班级人数少于20的班级比例 

班级人数多于50的班级比例 

大学里面学生总人数除以教员的总人数 

申请这所大学的学生被录取的人数占总申请人数的 

比例 

大一学生中高中成绩位于所在高中前10%的学生比例 
由其他大学的调查员评估的关于这所大学的学术声 
誉，分值从 1( 勉强够格)到 5( 杰岀） 


管理报告 

利用前面章节和本章所介绍的方法对这些数据进行分析，给出一份总结性的管理报告，包括 
关键的统计结果、结论和建议，在附录中给出合适的技术资料（计算机输岀结果、残差图，等等）。 





指数 


统计 实例： 美国劳工部劳工统计局 
17.1 比价 
17.2 综合物价指数 
17.3 根据比价计算综合物价指数 
17.4 —些重要的价格指数 
消费者价格指数 
生产者价格指数 
道琼斯股票平均价格指数 
17.5 根据物价指数减缩序列 
17.6 物价 指数： 其他一些相关问题 
商品项目的选择 
基期的选择 
质量变化 
17.7 物量指数 
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美国劳工部劳工统计局 

华盛顿 


美国劳工部通过其下属的劳工统计局编纂并发 
布各类指数和其他统计资料，这些指数和统计资料 
成为美国商业和经济的晴雨表。它们包括：消费者 
价格指数、生产者价格指数、各类工人的平均工作 
时间与收入等，其中引用的最为广泛的指数应该是 
消费者价格指数。它经常被认为是测量通货膨胀的 
尺度。 

2000年9月，劳工统计局报告 显示： 消费者 
价格指数 ( CPI ) 相比7月份的水平下降了 0.1%。这 
样的下降在14年内尚为首次，另一方面，劳工统 
计局同时指出，基础通货膨胀率在8月份却上涨了 
0.2%。基础通货膨胀率排除了消费者价格指数中 
的挥发性食品和能源成分，有时被认为是对通货膨 
胀压力的较好的反映。能源指数下降了 2.9%，食 
品指数增加了 0.2%。 

许多经济学家和分析师认为，消费者价格指数 
表明美国已经进入了非通货膨胀时代。他们指出， 
作为对消费者价格指数的补充，薪资水平上涨的趋 
势极其有限。劳工部也报 告说： 在前两个月保持不 
变的情况下，8月份的每周平均收入经过通货膨胀 
调整后仅仅上升了 0. 1%。 

另外一个指数也表明在不久的将来通货膨胀压 
力将会降低，这个指数就是生产者价格指数。生产 



美国劳工统计局根据所收集的商品和服务的销售价格计算 
消费者价格指数。 © CORBIS . 


者价格指数可以测量批发市场的价格变化，并且通 
常被认为是消费者价格指数变动的最重要的反映。 
生产者价格指数在8月份下降了 0.2%。联邦储备 
委员会的决策者们从1999年以来已经6次提高银 
行贷款利率，但是，由于这些数据表明价格并没有 
迅速上升，因此联邦储备委员会估计将会保持近期 
利率不变。 

本章中，我们将会讨论各种不同的指数，比如 
消费者价格指数和生产者价格指数，是怎么计算出 
来的以及怎样对它们作出解释。 


美国政府每个月都会发布许多不同的指数，以帮助每一个公民了解当前商业和经济形势。这 
些指数中了解和应用最为广泛的应该是消费者价格指数 ( CPIh 正如它的名字所代表的，消费者价 
格指数反映的是消费者支付其所选购的商品项目的价格变动。特别地，消费者价格指数可以测量 
某一段时间内的价格变动。.如果给定一个起始时期，也称为 基期， 其指数为100,则消费者价格 
指数能够比较当前时期和基期的消费价格。例如，消费者价格指数为125,则该指数表明当前期 
的消费价格在整体上比基期的消费价格提高了 25%。虽然只有很少的市民确切明白这个数字的含 
义，但是他们肯定知道这个指数的增加意味着价格的上升。 
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表 17. 1 

无铅汽油的价格 


年份 

每加仑价格 ( 美元） 

1984 

1.21 


1985 

1.20 


1986 

0. 93 


1987 

0. 95 


1988 

0.95 


1989 

1.02 


1990 

1 . 16 


1991 

1. 14 


1992 

1. 13 


1993 

1 . 11 


1994 

1 . 11 


1995 

1. 15 


1996 

1.23 


1997 

1.23 


1998 

1.06 


资料来源 ： Monthly Energy Review, 

U. S. Energy Administration 。 


表 17. 2 每加仑无铅汽油的比 
价 （ 1984 — 1998) 

年份 

每加仑价格 ( 美元） 

1984 

(1.21/1.21)100 = 

100.0 

1985 

(1.20/1.21)100 = 

99.2 

1986 

(0. 93/1. 21)100 = 

76.9 

1987 

(0. 95/1.21)100 = 

78.5 

1988 

(0. 95/1.21)100 = 

78,5 

1989 

(1.02/1. 21)100 = 

84. 3 

1990 

(1. 16/1.21)100 = 

95.9 

1991 

(1. 14/1.21)100 = 

94, 2 

1992 

(1. 13/1.21)100 = 

93.4 

1993 

(1. 11/1.21)100 = 

91.7 

1994 

(1. 11/1.21)100 = 

91.7 

1995 

(1 ‘ 15/1.21)100 = 

95.0 

1996 

(1.23/1.21)100 = 

101.7 

1997 

(1.23/1.21)100 = 

101.7 

1998 

(1.06/1.21)100 = 

87.6 


虽然消费者价格指数可能是最为著名的指数，但是还有许多其 
他的政府和私人机构的指数，它们也可以帮助我们测量和理解某个 
时期的经济状况和另外一个时期的经济状况的比较。本章的目的就 
在于阐述使用最为广泛的几种指数。我们可以构造一些简单指数， 
这样有助于理解指数的计算过程。 


17. 1比价 


比价指数最简单的形式，即某个给定商品项目当前单价与基期 
同一商品项目单价的比值。例如，表 17. 1显示的是1984年到1998 
年的每加仑无铅汽油的价格。为了与其他时期的价格进行比较，每 
加仑汽油的实际价格可以转化成比价 (price relative ) 0 比价表示的 
是当前时期单位产品价格与基期单位产品价格的百分比。 


i 时期的比价= 


t 时期的价格 
基期价格 


( 100 ) 


(17.1) 


根据表 17. 1中的汽油价格，以1984年作为基年，我们可以计 
算从1984年到1998年每加仑无铅汽油的比价。计算结果列于表 
17.2 中。以比价为基础，我们可以很容易地将任何时期的价格与 
基期的价格进行比较。例如，1986年的比价为77,这表明1986年 
的汽油价格比1984年基期的价格低23%。同样，1998年的比价为 
88,表明1998年的汽油价格比1984年基期的汽油价格下降了 
12%。就像运用无铅汽油这样的比价，在理解和解释经济和商业情 
况随时间的推移而发生的变化方面是很有帮助的。 


17.2 综合物价指数 

虽然比价可以用于确定单个商品随着时间的推移而发生的价格 
变化，但是我们通常对商品总体价格的变化更感兴趣。例如，我们 
需要一个指数来测量生活费用随着时间的推移所发生的总体变化， 
我们希望这个指数能够以各种生活必需品为基础，包括食物、住 
房、服装、交通和医药等等。综合物价指数 (aggregate price index ) 
就是为了满足反映许多商品价格整体变动这一特定目的而产生的。 

以正常的汽车消耗费用为例来考虑综合物价指数的编制。在这 
个产品分类项里，我们只考虑汽油、石油、轮胎和保险支出。 
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表 17.3 给出了在1984年到1998年期间上述4种汽车消耗费用的资料。以1984年作为基 
期，四种成分的综合物价指数可以反映出从1984年到1998年期间汽车正常消耗费用的变化。 

未加权综合物价指数是对象期（例如1998年）的单价之和除以基期 （1984 年）的单价之和。 
令 

f 时期；商品的 单价； 

= 基期 i 商品的单价。 


表 17. 3 汽车消耗费用指数的数据资料 


商品项目 

单价 ( 美元） 



1984 

1998 

汽油（加仑） 

1.21 

1.06 

石油（夸脱） 

1.50 

2 . 20 

轮胎 

80. 00 

145.00 

保险费用 

300. 00 

700. 00 


f 时期的未加权综合物价指数以/,表示，计算公式为 

/,=y^(100) 

式中，求和是针对该整体中所有项目而言的。 

1998年汽车正常消耗费用的未加权综合物价指数计算 如下: 


/l998 




1.06 + 2. 20 + 145. 00 + 700, 00 
1.21 +1.50 + 80. 00 + 300. 00 

848, 26 


( 100 ) 


" 382. 71 
= 222 


( 100 ) 


(17. 2) 


如果各个商品项的用量相同，未加权物价指数等于加权物价指数。但是在实际中， 
各个商品项的用量相同是很罕见的。 


根据未加权的综合物价指数，我们可以得出 结论： 从1984年到1998年，汽车正常消耗费用 
的价格增加了 122%。但是请注意，汽车消耗费用的未加权综合物价指数近似于复合物价指数， 
它受单价高的商品项影响严重。因此，单价相对较低的商品项，比如汽油和石油，受轮胎和保险 
支出这样的单价较高的商品项所制约。汽车正常消耗费用的未加权综合物价指数受轮胎和保险支 
出价格变动的影响极为严重。 

由于未加权指数受单价高的商品项影响，所以这种形式的综合物价指数应用并不广泛。当商 
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品项用量不同时，加权综合物价指数能够提供更好的对比。 


表 17.4 汽车消耗费用指数 


的每年使用信息 


商品项目 

权值 _ 

汽油（加仑） 

1 000 

石油（夸脱） 

15 

轮胎 

2 

保险费用 

1 


_根据每年行驶15 000英里确 
定，轮胎的使用根据每年行驶 
30 000英里确定。 


加权综合物价指数 (weighted aggregate price index ) 的本质在于： 
商品组合中的每一项应该根据它的重要性而赋予不同的权值。在大多 
数情况下，商品的使用数量是其重要性的最好的测量尺度。因此，我 
们必须得到商品组中各项不同商品的使用数量资料。表 17. 4是一辆 
中型汽车每年行驶15 000英里时所消耗费用的各项使用信息。表中 
所列的数量权值表明了此车的行驶情况的每年预计使用量。 

令0 项商品的使用数量。 f 时期的加权综合物价指数计算如 

下： 

L = 1^(100) (17.3) 


式中，求和是针对该整体中所有的商品项。对应于汽车消耗费用资料，加权综合物价指数等于 
1998年所有的消耗费用除以1984年所有的消耗费用。 

令 t = 1998, 并利用表 17.4 中的数量权值，我们可以得到1998年汽车消耗费用的加权综合 
物价指数 如下： 



1.06(1 000)+2. 20(15) + 145,00(2)+700. 00(1) f , 
1.21(1 000) + 1.50(15)+80. 00(2) + 300.00(1) 1 _ 


2 083 
= 1 692.5 

= 123 


( 100 ) 


从这个加权综合物价指数，我们可以得出 结论： 从1984年到1998年，汽车消耗费用的价格已经 
上涨了 23%。 

很明显，和未加权的综合物价指数相比，加权物价指数对汽车消耗费用在1984年到1998年 
期间的价格变动反映得更为精确。考虑汽油的使用数量有助于弥补保险支出的大量增加，加权指 
数所显示的汽车消耗费用增加比未加权指数所显示的要更为平缓。总的说来，加权综合物价指数 
以使用数量作为权值，因而它更适合于编制多个商品的价格指数。 

在加权综合物价指数公式 （17. 3) 里，数量&没有用来表示时期的下标，原因在于数量0被 
认为是固定的，而且不像价格那样随着时间变动而变动。固定的权值和数量是由指数的设计者指 
定的，其水平可以代表典型的使用情况。一旦确立下来，在整个指数使用期间它们都将保持固定 
不变。如果要计算1998年以外其他年份的指数，还需要收集新的价格数据/ V 但是权值 &保持 
不变。 

固定加权综合指数的一个特殊情 形是： 数量取决于基期的用量。在这种情况下，我 们有： 
Qi = Qio , 其中下标0表示基期。于是公式 （17. 3) 变为 

L = | p ^(100) (17.4) 
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任何时候只要根据基期的用量确定了固定的数量权值，则加权综合物价指数被称为拉 氏指数 
(Laspeyres index ) o 

另外一个确定数量权值的项目是修正每一个时期的数量。每年计算指数时所用的数量以久 
表示，则带有这些数量权值的 i 期加权综合物价指数为 

/ t = Yp ^(100) (17.5) 

请注意对基期 （0 时期）和 i 时期，所使用的数量权值是一样的。但是，这些权值是以《时期 
的使用情况为基础的，而不是以基期为基础。这个加权综合物价指数被称为帕 氏指数 (Paasche in ¬ 
dex )。 它所具备的优 点是： 以当前的使用情况为基础。然而，这种计算加权综合物价指数的方法也 
有两个 缺点： 通常的使用数量久必须每年重新确定，因此，增加了数据收集的时间和成本，并 
且每年必须重新计算前一年的指数，以反映新的数量的权重的影响。因为这些缺陷，拉氏指数的 
使用变得更为广泛。汽车消耗费用指数是以基期数量为基础计算的，因此，它也是拉氏指数。如 
果利用1998年的使用数据，我们就会得到帕氏指数。事实上，由于汽车的节油性能提高，汽油的 
耗量已经降低，这样帕氏指数就会不同于拉氏指数。 



方法 


下表是某两种商品在1989年和2001年的价格和 用量: 


自测题 



数量 

单价 ( 美元） 

商品项 

1989 

2001 

1989 2001 


A 

1 500 

1 800 

7.50 - 7.75 


B 

2 

1 

630. 00 1 500. 00 


a . 计算每一项商品在2001年的比价，以1989年为基期。 

b . 计算这两项商品在2001年的未加权综合物价指数，以1989年作为基期 

c . 用拉氏指数计算两项商品的加权综合物价指数。 

d . 用帕氏指数计算两项商品的加权综合物价指数。 


2. 2001年，某项商品比价为132,价格为 10. 75美元，基期为1990年。 

a . 在这11年期间，该商品价格涨幅或者跌幅的百分比是多少？ 

b . 1990年该商品价格是多少？ 
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应用 

3. 某个大制造商从三个独立的供应商处采购完全一样的原料，三个供应商供应的单价和 

iff~3> 数量都不同，1999年和2001年的相关数据 如下： 

自测题 


单价(美元) 


供应商 

数置 

1999 

2001 

A 

150 

5,45 

6. 00 

B 

200 

5.60 

5.95 

C 

120 

5.50 

6. 20 


a . 分开计算每一个原料供应商的比价，比较每一个供应商每两年的价格涨幅。 

b . 计算2001年该原料的未加权综合物价指数。 

c . 计算2001年该原料的加权综合物价指数，这个指数对制造商而言意味着什么？ ' 

4. R & B 饮料公司通过它设在衣阿华市中心的零售商店分销它的包括啤酒、白酒和软饮料 
产品在内的全部产品。1997年和2001年的单价数据以及1997年成箱销售的数量如下 
所示： 



1997 年销售量 

单价(美元） 


商品项 

(箱） 

1997 

2001 

啤酒 

35 000 

15.00 

16. 25 

白酒 

5 000 

60.00 

64.00 

软饮料 

60 000 

9. 80 

10, 00 


计算2001年 R & B 饮料公司销量的加权综合物价指数，以1997年为基期。 

5. 根据后进先出存货估计法 ( LIFO )， 以纳税为目的建立存货的价格指数。数量权值以年末的存货 
水平为基础，以年初的单价作为基期价格，建立年底总库存额的加权综合物价指数。对于后进 
先出存货估计法，必须建立什么类型的加权综合物价指数？ 


单价(美元) 


n£c a 
广口口 

年终库存置 

年初 

年终 

A 

500 

0. 15 

0. 19 

B 

50 

1.60 

1.80 

C 

100 

4.50 

4.20 

D 

40 

12. 00 

13.20 
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17.3 根据比价计算综合物价指数 


价格和数量必须是相对应的。例如，如果给定的价格是每箱的价格，则数量必须为 
箱数，而不是其他的单个单位。 


在 17.1 节中，我们给出了比价的定义，并且阐述了如何根据当前时期的单价和基期的单价来 
计算比价。现在我们希望能够像 17. 2节建立综合物价指数那样，根据整体中每一项商品项的比价 
直接计算综合物价指数。由于未加权指数的用途有限，我们集中讨论加权综合物价指数。回顾前 
一节中的汽车消耗费用指数，表 17.5 给出了所需四种费用的必要信息。 

令助为应用于第 i 项商品的比价的权值。则加权平均物价指数的一般性计算公式 如下： 


L = 


i lO_ 


(17. 6) 


在公式 （17. 6) 中选择适当的权值可以使我们根据比价来计算加权综合物价指数。将用量与基期价 
格的乘积作为权值，即 



(17.7) 


表 17. 5 汽车消耗费用指数的比价 


单价 


商品项目 

1984( P 0 ) 

1998 ( Pr ) 

比价 （ iV^)lOO 

年用置 

汽油（加仑） 

1.21 

1.06 

87.6 

1 000 

石油（夸脱） 

1.50 

2.20 

146.7 

15 

轮胎 

80. 00 

145. 00 

181.3 

2 

保险费用 

300. 00 

700. 00 

233.3 

1 


将則=户,0仏代入公式（17.6)中，得到加权平均物价指数 

冷(100)(歸） 

, I tO _ 

YKQi 

将分子中的项消掉，可得加权平均物价指数的另一个表达式 



iPuOi 

iPioQi 


(100) 


(17.8) 
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因此，我们可以得到以斯•为权数的加权平均物价指数，它和 17.2 节中公式（17,3) 
所表述的加权综合物价指数一样。在公式 （17. 7) 中利用基期数量 （ B 卩可以导出拉氏指数。 
在公式 （17. 7) 中利用当前期数量 （ B 卩0= (? u ) 可以导出帕氏指数。 

回顾汽车消耗费用的例子，我们可以利用表 17.5 中的比价和公式 （17. 6) 来计算加权平均物价 
指数，用公式 （17. 7) 所指定的权数计算出来的结果列于表 17. 6中。指数123表示汽车消耗费用增 
长了 23%，与 17. 2节所计算出来的加权综合指数结果相同。 


表 17.6 根据加权比价计算的汽车消耗费用指数 （1984 — 1998) 


商品项目 

比价 

基期价格(美元） 

数 ft 

权值 

加权比价 


( n / Pio )(100) 

PiQ 

Qi 

Wi = Fro Ql 

( Pu / Pio ) mQ)Wi 

汽油 

87.6 

1.21 

1 000 

1 210.0 

105 996. 00 

石油 

146.7 

1.50 

15 

22.5 

3 300. 75 

轮胎 

181.3 

80. 00 

2 

160.0 

29 008. 00 

保险费用 

233.3 

300. 00 

1 

300.0 

69 990. 00 



. 208 294. 75 

/l998 ~ 1 692. 5 ' 

= 123 

总计 1 692.5 

208 294. 75 



方法 


6 . 



自测题 


下表显示的是三项商品的比价、基价和用量，计算当前时期的加权综合物价指数。 

基期 


商品项目 

比价 

基价 

数置 

A 

150 

22.00 

20 

B 

90 

5.00 

50 

C 

120 

14.00 

40 


应用 

1 . _ Mitchell 化学公司生产一种特殊的工业化学品，它是由三种化学成分混合而成。年初 
和年底每磅产品的价格以及混合比例如下 所示： 
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每磅产品价格(美元) 


成分 

年初 

年底 

每100磅产品的用量(磅) 

A 

2.50 

3.95 

25 

B 

8,75 

9. 90 

15 

C 

0. 99 

0.95 

60 


a . 计算3种成分的比价。 

b . 为了求得一年生产中所需要的原材料的价格指数，请计算加权平均物价指数。对这个指数值， 
你如何解释？ 

8. 某个证券投资组合由四种股票组成。购入时的价格、当前价格和持股数如下表 所示： 


股票 

购入价格(美元） 

当前价格(美元） 

持股数 

Holiday Trans 

15.50 

17.00 

500 

NY Electric 

18.50 

20. 25 

200 

KY Gas 

26.75 

26.00 

500 

PQ Soaps 

42.25 

45.50 

300 


计算这个证券投资组合的加权平均价格指数，并解释它。 

9.计算练习4中的 R & B 饮料公司产品的比价。利用加权平均物价指数来 证明： 通过这种方法所 
计算出来的指数与加权综合法计算结果是一样的。 

17.4 —些重要的价格指数 

我们已经介绍了用于计算多个或单个商品项目物价指数的方法。现在，我们来考察一些价格 
指数，它们都是反映商业和经济状况的重要指标。重点考察的对象是消费者价格指数、生产者价 
格指数和道琼斯平均股票价格指数。 

消费者价格指数 


消费者价格指数包括服务费（例如医生和牙医的收费），以及所有与购买和使用商品 
直接相关的税费。 

消费者价格指数 (consumer price index , CPI ), 由美国劳工统计局每月定期发布，是美国生活 
消费价格水平首要的反映。用于计算这个指数的商品组合是一个由 400 种商品所组成的购物篮， 
里面包括食品、住房、服装、交通以及医药保健等等。消费者价格指数是一个加权综合物价指 
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数，它里面的权数都是固定的。 + 购物篮中每一项商品的权数都是通过对全美城市家庭的使用情况 
作出调查后确定的。 

2000年8月的消费者价格指数是172.7，以1982—1984年的指数100作为基期指数。这个数 
值意味着从 1982—1984 年的基期到现在，购买购物篮中的商品和服务的价格已经上升了 
72.7%。图 17. 1显示的是从1950年到2000年50年间的消费者价格指数时间序列。请注意，从 
图像上可以看出来，消费者价格指数反映出了 20世纪70年代后期和80年代初期剧烈的通货膨胀 
现象。 



图 17. 1 1950—2000 年消费者价格指数（以1982 — 1984年为基期，指数为 100) 


生产者价格指数 

生产者价格指数 (producer price index ， PPI ) ，也是由美国劳工统计局每月定期发布，它可以 
度量美国初级市场每个月价格的变动。生产者价格指数的计算以每种产品在非零售市场上的初次 
交易价格为基础。所有在这些市场上进行商品交换的商品都被包括在内。调查覆盖了原材料、经 
过制造的和在各个加工阶段上经过加工的商品，并且包括了制造业、农业、林业、渔业、矿业、 
煤气和电力以及公共事业的各类产出。这个指数常用于反映消费者价格指数和生活消费价格的未 


* 实际上有两个消费者指数。美国劳工统计局公布的消费者价格指数里面，一个是所有城市消费者价格指数 ( CPI - U )， 另 
一个是对城市工薪阶层和产业工人修正后的消费者价格指数 ( CPI - W )。 其中城市消费者价格指数应用更为广泛，它由《华 
尔街日报》定期发布。 
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来趋势。生产者价格指奴的增长表明了生产价格的上涨，而这种上涨最终要通过零售价格的上涨 
传递给消费者。 

生产者价格指数中不同商品项的权数以货物价值为基础。加权平均价格指数由拉氏公式计算 
出来。2000年8月的生产者价格指数是 138. 1，以1982年的指数100为基期指数。 


生产者价格指数只测量国内产品价格的 变动； 进口产品不包括在计算范围之内。 


道琼斯股票平均价格指数 

道琼斯股票平均价格指数 (Dow Jones averages ) 反映的是纽约股票交易所股票交易价格的波动 
和变化趋势。道琼斯股票平均价格指数中最著名的是30种道琼斯工业股票平均价格指数 ( DJIA ) ， 
它是根据30个大公司的普通股票价格计算出来的。将这些股票价格的总和除以一个数，这个数因 
为拆股和公司之间的股票转换而需要一次次地重新计算。和我们所学过的其他价格指数不一样的 
是，它不是以基期价格的百分比来表示。表 17.7 显示的是2000年9月计算道琼斯工业股票平均 
价格指数所指定的30个公司。 

查尔斯 • 亨利. 道 （Charles Henry Dow ) 于 1884年7月3曰在 Customer ^ s Afternoon 
Le « er 上发表了他的第一个股票平均价格指数。其中包括11种股票，里面有9种是铁路 
股票。1928年10月1日首次发布了道琼斯30种工业股票平均价格指数。 

表 17. 7 道琼斯工业股票平均价格指数计算所用的30家公司 (2000 年9月） 


Alcoa 

Exxon Mobil 

J. P. Morgan Chase 

American Express 

General Electric 

McDonald’s 

AT&T 

General Motors 

Merck 

Boeing 

Hewlett-Packard 

Microsoft 

Caterpillar 

Home Depot 

Minnesota Mining 

Citigroup 

Honeywell Int’ 1 

Philip Morris 

Coca Cola 

IBM 

Procter & Gamble 

Disney 

Intel 

SBC Communications 

DuPont 

International Paper 

United Technologies 

Eastman Kodak 

Johnson & Johnson 

Wal-Mart Stores 


资料 来源 ： Barron s, March 12, 2001 


其他的道琼斯股票平均价格指数还包括 20 种交通运输股票指数和15种公共事业股票指数。 
道琼斯股票平均价格指数每天都会被计算出来，并在《华尔街日报》及其他金融出版物上发布。 
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17.5 根据物价指数减缩序列 

许多商业和经济的时间序列，比如公司销售额、工业销售额和库存额，都是以美元来计量 
的。这些时间序列通常随着时间推移会呈现出上升的趋势，这种上升通常被解释成与这些活动相 
关的实物增长。例如，库存额的美元总数上升了 10%，这完全可以被解释为库存总量增加了 
10%。如果一个时间序列使用美元计量，这样的解释有可能引起误解，因为价值总量的变动同 
时包含着价格的变动和数量的变动。因此，在某一段时期，当价格的变动成为主要因素时，如 
果我们不对时间序列进行调整以消除价格变动的影响，则价值总量的变动将无法反映数量的变 
动。 

对时间'序列进行缩减是为了消除通货膨胀的影响。 

举个例子，从1976年到1980年，建筑业的支出总额增长了大约75%。.这个数字表明建筑业 
的增长态势良好。但是，建筑商品的价格以同样的速度在增长，甚至在某些时候增长率比75%还 
要高。实际上，当建筑总支出增长时，虽然不断有新项目开工，但是建筑业的发展却保持着相对 
的稳定，甚至在某种程度上在倒退。为了正确剖析1976年到1980年间的建筑业发展状况，我们 
必须用价格指数来调整总支出序列以消除价格上涨所带来的影响。对一个时间序列进行调整，以 
消除价格上涨所带来的影响，我们把这种调整叫 做时间序列的减缩。 

关于个人收入和工资，我们经常听到比如“真实工资”或工资的“购买力”之类的说 
法，这些概念都是以对每小时的工资收入进行减缩为基础的。例如，图 17.2 显示了在1996 
年到2000年期间制造业工人每小时工资的变化情况。我们可以看到每小时工资由 12. 77美元 
上涨到了 14. 36美元，那么制造业工人是否会为这种工资的增长而感到欣慰呢？答案取决于 
他们的工资购买力是否增长。如果我们可以将1996年每小时工资 12.77 美元的购买力与2000 
年每小时工资 14.36 美元的购买力进行比较，我们就可以更清楚地判断工资的相对增长情 
况。 

表 17.8 给出了 1996 年一 2000年间的每小时工资率和消费者价格指数。利用这些数据，我们 
可以说明怎样利用消费者价格指数来对每小时工资指数进行减缩。减缩过的时间序列由每年的每 
小时工资除以相对应的消费者价格指数再乘以100构成。减缩后的制造业工人每小时工资指数列 
于表 17.9 中； 图 17. 3显示的是减缩后的工资，或者叫真实工资的图像。 

对于1996年到2000年间的工人实际工资或购买力，减缩后的工资序列能反映什么问题呢？ 
根据基期的价格 （1982 年到1984年为100)，每小时工资率在这段时期的曲线是平坦的。在消除了 
通货膨胀的影响后，我们可以看到工人的购买力仅有轻微的变化。在图 17.3 中可以清晰地看到这 
一点。因此，用物价指数对序列进行减缩的好处 在于： 我们可以清楚地了解到实际购买力所鸯生 
的变化。 
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图 17. 2 制造业工人的每小时实际工资 


* 17.8 1996年到2000年间制造业工人每小时工资和消费者价格指数 


年份 

每小时工资（美元） 

消费者价格指数（以 1982— 1984年为基期） 

1996 

12.77 

156.9 

1997 

13. 11 

160.5 

1998 

13.46 

163.0 

1999 

13.93 

166.6 

2000 

14.36 

172.6 

资料 来源： 

Bureau of Labor Statistics 。 



表 17. 9 经过减缩后的制造业工人每小时工资序列 


年份 

减缩后的每小时工资（美元） 

1996 

(12. 77/156.9)(100) =8- 14 

1997 

(13. 11/160.5)(100) =8. 17 

1998 

(13.46/163.0)(100) =8. 26 

1999 

(13. 93/166.6)(100) =8. 36 

2000 

(14. 36/172.6)(100) =8.32 


对时间序列进行减缩这种处理方法在计算国内生产总值 ( GDP ) 时有重要的应用。国内生产总 
值是某个国家所生产的产品和服务的总价值。很显然，如果不用物价指数来减缩国内生产总值， 
则国内生产总值将会随着物价的上涨而增长。因此，我们必须用物价指数来调整国内生产总值， 
以反映国内所生产和销售的产品和服务的总价值的实际变化。这种处理方法类似于在实际工资的 
计算中所用的方法。 
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1996 1997 1998 1999 2000 

年 

图 17.3 制造业工人每小时实际工资 （1982—1984 = 100) 


樣习 


应用 

10. 制造业工人在1980年的每小时工资是 7.27 美元，在2000年，他们是14,36美元， 
1980年的消费者价格指数是 82. 4, 2000年的消费者价格指数是172.6。 

自测题 a . 对1980年和2000年的每小时工资进行减缩，计算实际工资。 

b . 从1980年到2000年每小时实际工资的变化比例是多少？ 

c . 从1980年到2000年每小时真实工资的变化比例是多少？ 

11. 下表是从1996年到2000年5年期间，服务行业从业人员的每小时平均工资。利用表 17.8 中 
的消费者价格指数对工资序列进行减缩。从1998年到2000年，实际工资的增长幅度是多 


年份 

工资总额 （10 亿美元) 

1996 

11.76 

1997 

12. 23 

1998 

12. 84 
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年份 

(续表) 

工资总额 （10 亿美元) 

1999 

13.35 

2000 

13.82 

资料来源： Bureau of Labor Statistics 。 


12. 美国人口普查局给出了 1997 年到 1999 年 3 年间制造业的总产值 如下: 

年份 

制造业总产值 (10 亿美元) 

1997 

3 929 

1998 

4 052 

1999 

4 260 


a . 1997年到1999年的消费者价格指数在表 17.8 中给出，利用这些信息对制造业总产值序列 
进行减缩，并评价制造业总产值变动情况。 

b . 下面是1997年到1999年的生产者价格指数（不包括食品），以1982年为基期。利用生产者 
价格指数对序列进行减缩。 

年份 生产者价格指数 （1982 年为 100) 

1997 131.8 

1998 130. 7 

1999 133.0 

c . 利用消费者价格指数和生产者价格指数对制造业总产值进行减缩，您认为哪一个更为合 
适？ 

13. 下面是 Dooley 零售批发商店从1982年以来某些年份的销售额，还有以1982年 一1984 年为基 
期的消费者价格指数。以1982年到1984年的美元不变价格来减缩销售额，并根据减缩后的 
资料评价商店的销售额。 


年份 

零售额(美元） 

消费者价格指数（以1982 年一 1984年为基期) 

1982 

380 000 

96. 5 

1987 

520 000 

113.6 

1992 

700 000 

140.3 

1997 

870 000 

160.5 

2000 

940 000 

172.6 


17.6 物价 指数： 其他一些相关问题 

在前面的章节中，我们描述了几种用于计算价格指数的方法，并讨论了一些重要指数的用途 
以及用价格指数对时间序列进行减缩的步骤。为了提高我们对物价指数的编制和用途的认识，我 
们有必要了解其他一些相关问题。接下来，本节将对它们进行讨论。 
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商品项目的选择 

物价指数的首要目的在于测量某一类指定商品项目、产品等的价格随时间推移而发生的变 
动。由于同类商品的项目很多，所以我们不可能根据这一类型的所有商品项目来编制指数。但不 
管怎样，我们需要对这一类商品进行代表性的抽样。.我们希望通过收集抽样项目的价格和数量信 
息，来获取指数所要描述的所有商品项目的价格情况。例如，对于消费者价格指数，一个消费者 
正常考虑所要购买的商品的数量超过2 000多种，但是消费者价格指数仅仅根据400项商品的价 
格资料来编制。对于编制指数所需项目的选择并不是一件简单的事情，可以通过对消费者购买商 
品进行调查来选择指定项目，但是不能通过简单随机抽样来选择这400种商品。 

初步选定商品项以后，还必须随着采购意向的变化对指数中的项目进行定期修正。因此，在 
编制和修正指数之前，我们必须解决指数应该包含哪些商品项目这个问题。 


基期的选择 

大多数指数的编制都是以某个特定时期为基期，并且基期的数值设为100。指数的所有将来 
值都是和基期数值相关的。但是对一个指数而言，什么样的基期才是合适的呢？这个问题并不简 
单，而且答案必须以指数编制者的判断为基础。 

2000年美国政府编制的许多指数都是以1982年为基期。作为一个总的指导思想，基期不应 
该离当前期太远。例如，如果消费者价格指数以1945年为基期，将会使公众难于理解，因为 
1945年的生活情形已经过于陌生。因此，大多数指数的基期都向着一个更近的时期定期调整。 
1988年美国消费者价格指数基期从1967年调整为 1982—1984 年的平均值，当前的美国生产者价 
格指数以1982年作为基期（即1982年= 100)。 

质量变化 

编制物价指数的目的在于测量价格随时间变化而发生的变化。理想的情况是，收集相同商品 
项目在不同时期的价格数据，然后再计算出价格指数。一个基本的假设是在每一个时期，相同商 
品项目的价格是可知的。当一个产品从一个时期进入下一个时期时，如果它的质量发生变化就有 
可能出现问题。举个例子，如果制造商使用廉价一点的原料，减少产品的特征等诸如此类的变 
动，一年一年累计，则有可能改变产品的质量。在接下来的年份里，价格反而会变得更高，但是 
与这个价格相对应的产品质量却下降了。因此，某商品价格的实际上升可能会比所显示的要高。 
即使我们能够针对商品质量的下降去调整指数，那也将会是一件相当困难的事。 

如果对产品质量进行显著的改进，也会造成产品价格的上升。我们在进行指数计算时，应该 
排除产品质量提高所导致的价格上涨部分。但是，即使我们能够对指数进行调整以剔除质量提高 
所带来的价格影响，这样的调整也是一件很困难的事。 

在编制指数时，虽然通常的做法是将微小的质量变化忽略不计，但是较大的质量变动必须被 
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考虑在内，因为随着时间的积累它会改变产品性质。如果产品性质发生了改变，则指数必须为此 
而 修正； 在某些情况下，该项产品甚至会被从指数计算中删掉。 

在某些情况下，质量的显著改善反而伴随着价格的降低。这种例外的情形已经体现在20世纪 
90年代的个人电脑销售上。消费者价格指数的设计者们目前正在对消费者价格指数做适当的调 
整，以适应这种情形。 


17. 7物量指数 


除了前面章节中所描述的物价指数以外，其他类型的指数也是很有用的。特别要提到的是， 
指数的另外一个应用是测量数量随着时间变化所发生的变化。这种类型的指数被称为物 置指数 
(quantity index ) 。 

回顾 17. 2节中所讨论的加权综合物价指数的计算过程，为了计算 t 时期的指数，我们需要基 
期的单价（八)和 f 时期的单价 （ P ,)。 公式 （17. 3) 给岀了加权综合物价指数的计算公式 



iPuOi 

XPioQi 


( 100 ) 


分子表示 i 时期指数项目固定数量的总值。分母•表示基期指数项目同样固定数量 
的总值。 

加权综合物量指数的计算类似于加权综合物价指数的计算。第 i 项基期和 i 期的数量分别记 
为和仏，然后，用同一固定价格、增加值或其他因素对数量进行加权。产品的“增加值”是 
销售额减去购入价格。计算 t 时期加权综合物量指数的公式为 

I t = 吾公肌 (100) (17.9) 

Z (JiOWi 

在某些物量指数中，第 i 项的权数即为基期的价格 （ P lQ )， 在这种情况下，加权综合物量指数 
计算公式 如下： 

/,= |^；^(100) (17.10) 

物量指数也可以根据加权物量比来计算，这种方法的计算公式 如下： 

/t = — IC (1QQ) (17. ID 

这个公式是 17. 3 节中公式 （17. 8) 所介绍的加权平均价格公式的数量表现形式。 

由美国联邦储备委员会编制的 工业产品指数 (Index of Industrial Production ) 可能是最著名的物 
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量指数。它每月发布一次，以1992年作为基期。这个指数用于测量除了采矿业和公用事业之外的 
各种不同制造业的产品数量变动。2000年8月的工业产品指数为 145. 7。 



方法 


14. 以下是某三项产品在 1992 年和 2000 年的销量，以及 1992 年的产品单价。计算 2000 

M ~ 3 > 年的加权综合物量指数。 

自测题 


销量 


广口口 

1992 

2000 

单价 (1992 年 ）（ 美元) 

A 

350 

300 

18, 00 

B 

220 

400 

4.90 

C 

730 

850 

15.00 


应用 

15. 一个卡车运输公司为某个指定销售商运输 4 种货物。下表是 1991 年和 2000 年的货物 

mr ~ i > 运输量和1991年的 价格： 

自测题 



货物运输量 

1991年运输价格 

货物 

1991 

2000 

(美元） 

A 

120 

95 

1 200 

B 

86 

75 

1 800 

C 

35 

50 

2 000 

D 

60 

70 

1 500 


以 1991 年为基期，计算加权综合物量指数。评论 1991 年到 2000 年期间数量的增长 
或降低。 

16 .下表是某汽车销售商 1989 年和 2000 年三种型号汽车的销量。请计算物量相对指数，并用它 
来计算2000年的加权综合物量指数。 


型号 

Sedan 

Sport 

Wagon 


销量 


1989 

2000 

200 

170 

100 

80 


销售的平均价格 
(1989 年 ）（ 美元) 

15 200 
17 000 

16 800 


75 


60 
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在商业和经济环境中，价格指数和数量水平是衡量价格和数量变动的重要尺度。比价是某一 
商品的当前单价和基期单价的比值再乘以100。如果比价为100,则表示当前单价和基期单价没有 
差别。编制综合物价指数是为了对一组商品或产品的全部价格变动进行复合测量，一般情况下加 
权综合物价指数中的权数由其使用数量决定。根据商品的使用数量对指数中每一个商品的比价进 
行加权，也可以计算出加权综合物价指数。 

消费者价格指数和生产者价格指数是两个应用非常广泛的指数，其中，消费者价格指数的计 
算是以 1982—1984 年为基期，生产者价格指数是以1982年为基期。道琼斯30种工业股票平均价 
格指数也是一个应用极为广泛的物价指数，它是纽约证券交易所上市的30种普通股票的加权和。 
和其他指数不一样的是，它不能表示为某一个基期数值的百分比。 

物价指数通常可以用于对一些随时间变动的经济序列进行减缩，我们已经学习了如何用消费 
者价格指数减缩每小时的工资，从而得到实际工资指数。对指数计算中所涉及到的商品项目、 
基期进行选择以及因为商品品质的改变而进行调整，这些都是编制指数所应该考虑的重要问 
题。对物量指数只是进行了简短扼要的讨论。工业产品指数也是作为一个重要的物量指数而提 
及的。 


术 语科义 


比价： 商品的一种物价指数。计算方法是将当前期的单价除以基期的单价，然后再乘以100。 

综合物价 指数： 根据一组商品的价格而得出的复合物价指数。 

加权综合物价指数： 对商品组中的商品，根据各自相对的重要性进行加权而得到的一种复合物价 

指数。 

拉氏 指数： 以每一项商品的基期数量作为权数的加权综合物价指数。 

帕氏 指数： 以每一项商品的当前期数量作为权数的加权综合物价指数。 

消费者价格 指数： 一种每月定期发布的物价指数，根据由消费品和服务所组成的“购物篮”中价 

格的变动，来测量消费品价格随时间的变动。 

生产者价格 指数： 一种每月定期发布的物价指数，它反映初级市场上销售商品 （即在 非零售市场上 

首次购买某种商品）的价格变动。 

道琼斯股票平均价格 指数： 反映纽约证券交易所股票价格趋势和波动的综合物价指数。 

物量 指数： 测量物量随时间变动的指数。 

工业产品 指数： 测量实物数量或工业品产量随时间变动的一种物量指数。 
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f 要公 



z 时期的比价 

f 时期的未加权综合物价指数 

t 时期的加权综合物价指数 

加权平均物价指数 

公式 (17. 6) 的权数 

加权综合物量指数 


时期的价格 
基期价格 _ 


( 100 ) 


“号免 (100) 


“ 徵 ⑽ ) 


I 


X 食(100)讥 

Y.Wi 


"Wi ^ Pi0 (^i 


“ 微 _ 


(17.1) 


(17.2) 


(17.3) 


(17.6) 


(17.7) 


(17.9) 


什免钺 


17. 1996—1999 年单亲家庭新住房的中等价格如下所示 （ Statistical Abstract of the United States , 
2000 ) : 


年份 

价格(千美元) 

1996 

140.0 

1997 

146.0 

1998 

152.5 

1999 

160.0 


a . 以 1996 年作为基期，计算这 4 年来单亲家庭新住房的比价。 
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b . 以1997年作为基期，计算这4年来单亲家庭新住房的比价。 

18. Nickerson 制造公司四种产品的装运数量和成本资料如下： 


产品 

基期数量(1998> 

每单位平均装运成本(美元) 

1998 

2001 

A 

2 000 

10.50 

15. 90 

B 

5 000 

16.25 

32.00 

C 

6 500 

12.20 

17.40 

D 

2 500 

20.00 

35.50 


a . 计算每一种产品的比价。 

b . 计算4年期间反映装运成本变动的加权综合物价指数。 

19. 如果2001年4种产品的数量分 别为： 4 000 , 3 000 , 7 500 , 3 000。利用练习18中的价格数 
据计算装运成本的帕氏指数。 

20. Boran 证券经纪人公司选择4种股票以编制指数反映股票市场行情。以1999年为基期，1999 
年基期、2001年1月和2001年3月每股价格如下，基期数量以4种股票的历史数量为基 
础。 


股票 

行业 

1999年数量 


每股价格(美元） 


1999年基期 

2001年1月 

2001年3月 

A 

石油 

100 

31.50 

32.75 

32.50 

B 

计算机 

150 

65. 00 

59.00 

57. 50 

C 

钢铁 

75 

40. 00 

42. 00 

39.50 

D 

房地产 

50 

18.00 

16.50 

13.75 


以1999年作为基期，计算 Boran 2001年和2001年3月的指数。这个指数能说明股票市场什 
么行情？ 

21. 计算练习20中组成 Boran 指数的4种股票的比价。利用加权平均价格指数计算2001年1月、 
2001年3月的 Boran 指数。 

22. 以下是衣阿华地区谷物生产的数量和比价信息 （ Statistical Abstract of the United States , 1997) : 


产品 

1991年产量(百万蒲 式耳） 

基期价格(美元/蒲式耳> 

1991— 1996年比价 

玉米 

1 427 

2.30 

113 

黄豆 

350 

5.51 

123 


1996 年衣阿华地区谷物生产的加权综合物价指数是多少？ 


23. 1988年和 1998年新鲜水果价格以及数量如下（ Statistical Abstract of the United States , 1999)： 
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水果 

1988年人口平均消费量(磅） 

1988年价格(美元/確） 

1998年价格（美元/磅) 

香蕉 

24.3 

0.41 

0.51 

苹果 

19.9 

0.71 

0. 85 

桔子 

13.9 

0. 56 

0.61 

梨子 

3.2 

0. 64 

0. 98 


a . 计算每一种产品的比价。 

b . 计算水果的加权综合物价指数，评论这10年期间水果价格的变动。 


24. 以下是 Midwestern 大学企业管理助教的年薪起价 (9 个月）。用消费者价格指数对年薪序列进行 
减缩，并据此讨论高等教育年薪的变化趋势。 


年份 

起薪(美元） 

消费者价格指数（以1982—1984年为基期) 

1970 

14 000 

38.8 

1975 

17 500 

53.8 

1980 

23 000 

82.4 

1985 

37 000 

107.6 

1990 

53 000 

130.7 

1995 

65 000 

152.4 

2000 

80 000 

172.6 


25. 以下是某一股票5年来每股价格的历史数据，还有以1982年一1984年为基期的消费者价格指 


年份 

每股价格(美元） 

消费者价格指数（以1982—1984年为基期) 

1996 

51.00 

156.9 

1997 

54.00 

160.5 

1998 

58.00 

163.0 

1999 

59. 50 

166.6 

2000 

59.00 

172.6 


对股票时间序列进行减缩，并评论该股票的投资价值。 

26. 以下是某个大制造公司1997年一2001年的产量和产品价格。根据这些数据计算加权综合物量 
指数，这个物量指数意味着什么？ 


数置 


产品 

1997 

2001 

价格(美元) 

A 

800 

1 200 

30.00 

B 

600 

500 

20.00 

C 

200 

500 

25.00 







统计实例：内华达职业健康诊所 
18.1 时间序列成分 

趋势成分 
循环成分 
季节成分 
不规则成分 
18.2 平滑法 

移动平均法 
加权移动平均法 
指数平滑法 
18.3 趋势推测法 
18.4 趋势和季节成分 
乘法模型 
计算季节指数 
消除季节影响的时间序列 
利用消除了季节影响的时间序列来分析趋势 
季节调整 

根据月度资料建立模型 
循环成分 
18.5 回归分析 
18.6 定性预测方法 

德尔菲法 
专家判断法 
远景规划法 
直观预测法 
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内华达职业健康诊所* 

斯帕克斯，内华达州 

内华达职业健康诊所 (Nevada Occupational 
Health Clinic ) 是斯帕克斯的一个私人医疗诊所。它 
精于企业医疗，在同一个地方营业已经超过20 
年。在1991年初，该诊所开始进入快速增长期， 
在此后的26个月里，它的月收入从57 000美元一 
直增加到300 000美元。诊所业绩一直呈现快速的 
增长，而1993年4月6日它的主要建筑物却遭遇 
火灾而毁。 

诊所的保险单包括固定资产和设备，还有因常 
规商业经营被打断而遭受的经济损失。计算固定资 
产和设备的损失，在受理保险索赔里面并不是一件 
很困难的事 Q 但是，确定该诊所在7个月重建期间 
的经营损失则是一件相当复杂的事，它涉及到经营 
业主和保险公司之间的谈判。没有任何预先确立的 
原则可以用来计算诊所假如没有发生火灾将会有多 


* 作者衷心感谢内华达职业健康诊所的经营总裁、执行管 
理助理 Bard Betz 提供这一统计实例。 



1993年内华达职业健康诊所因火灾而被迫关闭7个月。 © 
PhotoDisc,Inc. 


少经营收入。为了估计损失额，诊所利用了预测方 
法来计算在7个月的停业期间可能实现的营业增 
长。正如本章所讨论的，在火灾之前的历史资料将 
会成为预测模型的基础，该模型考虑了线性趋势和 
季节成分的影响。这个预测模型使得诊所能精确估 
计所遭受的损失，并且最终被保险公司所接受。 


管理任何组织的基本方法之一是制定将来的计划。事实上，一个组织长远的成功在很大程度 
上取决于管理部门是否能够预测未来并制定适宜的策略。准确的判断、直觉和对经济状况的了解 
将会使管理者对将来的态势有一个概略的认识和看法。但是，如何将这些看法和认识转量化，例 
如，将下一个销售季度的销量或者下一年的原材料价格进行预期，是困难的。本章的目的就是要 
介绍几种预测的方法以解决这一问题。 

大多数的公司可以用小于5%的误差来预测所有产品的总需求。但是，对单个产品 
进行预测，则会有显著的误差。 

假设我们需要提供即将到来的一年的某种特定产品的季度销量的预测值，生产进度安排、原 
材料采购、产品目录和销售定额都将受到这一预测值的影响。因此，较差的预测将导致计划的失 
败，并将使公司生产成本增加。我们应该怎样做才能提供销售量的季度预测值呢？ 
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当然，我们需要观察该产品在过去时期的实际销售资料。利用这些历史资料，我们可以发现 
销量的一般水平和趋势，例如销量随时间而增加或减少。对这些资料进行更深人的观察，可以发 
现季节特征，例如销量峰值出现在每年第三季度，而在第一季度则是销量低谷。通过回顾历史数 
据，我们通常可以对销量有更好的了解，并对产品的未来销售有更好的预测。 

销量的历史数据组成了一个时间序列。 时间序列 (time series ) 是一个变量在连续时点或持续时 
期上的观测值的集合。在本章中，我们将介绍几种分析时间序列的方法。分析时间序列的目的在 
于提供良好的 预测值 ( forecasts ) 给未来的时间序列提供预测值。 

预测仅仅是对将来可能发生情况的一种简单判断，管理人员必须接受这样一种事 

实： 无论使用什么样的预测手段，他们都不可能得到完美的预测结果。 

预测方法可以分为定性和定量两种方法。定性预测方法只有在以下几个条件都得到满足时才 
能应用：（1)被预测的变量的历史资料 可用； （2) 历史资料是可以定 量的； （3) 序列轨迹可以被顺推到 
将来。在这些条件都得到满足的情况下，我们可以使用时间序列分析方法或者因果分析方法来进 
行预测。 

如果历史数据被可变的历史数值所制约，这种预测方法被称为 时间序列法。 时间序列 
法的研究目的是在历史数据中发现规律性的轨迹，并将它延伸到 将来； 这种预测方法只能 
以历史数据和/或历史预测误差为基础。在本章中，我们将讨论三种时间序列 方法： 平滑法 
(移动平均法、加权移动平均法和指数平滑法）、趋势推测法和调整季节影响后的趋势推测 
法 。 

因果预测法是建立在这样一个假定之 上的： 即我们所预测的变量与其他的一个或多个变量有 
因果关系，在本章中我们将讨论回归分析在因果预测法中的应用。例如，许多产品的销量受到广 
告支出的影响，因此可以建立回归分析方程来显示这两个变量是怎么相关的。然后，一旦确定了 
下一个时期的广告预算，即可将这个预算值代入方程得到下一个时期的销量预测或判断。但是请 
注意，如果我们使用时间序列预测法来预测，则不考虑广告支出，因为时间序列法仅仅依赖于历 
史销量。 

定性预测法通常都涉及到专家判断，例如，一个专家组可以就今后的主要利率得到一个一致 
的预测结果。定性预测法的优点在于当所预测的变量无法定量的时候，或者无法利用或得到历史 
数据的时候，我们可以应用它。图 18. 1综合给出了各种类型的预测方法。 


18.1 时间序列成分 

时间序列数据的轨迹或行为包含几种成分。通常的假设认为有四种独立的 成分： 趋势、循 
环、 季节和不规则，将这些成分综合起来可以得到时间序列的特定值。下面我们对每一种成分进 
行仔细深入的研究。 
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图 18. 1 预测方法综合图 


趋势成分 

在时间序列分析中，测量间隔可以是每小时，每天，每周，每月，或者每年，还可以是某个 
特定的间隔周期，虽然时间序列数据通常会呈现随机起伏的状态，但是它依然在一个较长的时期 
内逐渐呈现岀相对升高或降低的运动趋势。这种时间序列的逐渐变化被称为时间序列的趋势 
( trend ) ;这种转变或趋势通常是长期因素影响的结果，例如人口数量的变化，人口构成特征的变 
化，技术的变化和/或消费者偏好的变化。 

举个例子，一个摄影设备的制造商可以看到照相机销量每个月都在变化。但是，回顾过去10 
年到15年的销量，制造商会看到年销售量在逐渐增长。假设1991年销量接近17 000台，1996年 
为23000台，2001年为25000台。这种销量随着时间的逐渐增加表明了时间序列的增长趋势。 
图 18. 2所显示的直线可以被认为是照相机销量增长趋势的一个很好的近似。虽然照相机销量变化 
的趋势呈线性并随着时间的推移而增长，但是很多时候这种时间序列可以由其他图形得到更好的 
描述。 

图 18. 3显示了另外一些可能的时间序列趋势图形。其中图 A 显示的是非线性趋势，在这种 
情况下，时间序列表明一开始增长缓慢，然后有一个迅速增长期，最后逐渐水平。这种趋势很好 
的模拟了一种产品从投人市场，经过销量增长，最后达到市场饱和的销售 情形； 图 B 可以应用于 
表示一个销量随着时间推移平稳减少的线性 趋势； 图 C 的水平线表明时间序列没有随着时间推移 
增加或减小，因此也就没有趋势。 

* 我们对时间序列的讨论仅限于序列值是等间隔记录的情形，不等间隔记录观测值的情形超出了本书讨论的范畴。 
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图 18. 2 照相机销置的线性趋势 


2001 



A . 非线性 
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时间 

C . 没有线性 


图 18. 3 —些可能的时间序列趋势示例 


循环成分 

虽然时间序列可以显示长期变化趋势，但并不是所有的时间序列值都会准确地落在趋势线 
上。实际上，时间序列经常围绕着趋势线上下波动。任何围绕着趋势线上下波动时间超过一年的 
轨迹点都可以被称为时间序列的循 环成分 (cyclical component )。 图 18. 4显示了一个有着明显循环 
成分的时间序列图形。观测值的读取间隔是一年。 

许多时间序列的观测值环绕着趋势线有规则地上下波动，展示了明显的循环特性。通常，时 
间序列的循环成分归因于经济的多重循环运动。例如，轻度通货膨胀后紧接着高通货膨胀，这种 
经济现象会导致时间序列环绕着逐渐上升的趋势线（例如，关于房地产价格的时间序列）上下波 
动。20世纪80年代早期的许多时间序列显示了这种类型。 


年销量(单位) 
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图 18.4 时间序列的趋势和循环成分(观测值的读取间隔为一年) 


季节成分 

虽然时间序列的趋势和循环成分是通过分析历史资料多年的运动来识别的，但是很多时候时 
间序列在一年的时间段内也会呈现出规则性的轨迹。例如，一个游泳工具的制造商可以预期它的 
产品销售在秋冬两季将会陷入低谷，但是在春季和夏季销售则会达到高峰。相反，铲雪设备和御 
寒衣服制造商对它们的产品销售则刚好有完全相反的预期。毫无疑问，时间序列中数据的变化应 
该归因于季节影响，因此我们把这种影响时间序列的成分称为季节成分 (seasonal component ) 。尽 
管我们通常认为季节成分在时间序列中的运动是在一年之内出现，但是小于一年的规则性重复运 
动轨迹也可以用季节成分来表示。例如，每天的交通流量在上下班期间达到高峰，在其他的时间 
段内和傍晚流量比较适中，而在半夜到清晨则很微弱，这也是一种“季节”成分行为。 


不规则成分 

时间序列的不规则成分 (irregular component ) 可以称为剩余或者包罗其他一切现象的解释因 
素，它被用来解释在剔除了趋势、循环和季节成分影响以后的时间序列实际变动现象。不规则成 
分是由那些短期的、无法预期的和不重复出现的因素影响时间序列而形成的。由于不规则成分所 
解释的是时间序列中的随机变动性，所以它是无法预测的。我们也不可能预测它对时间序列有什 
么样的影响。 


18. 2平滑法 


许多的生产环境需要每周或者每月预测成千上万的项目。因此，选择预测方法时简 
单性和易于使用性是一个很重要的标准。本章所论述的预测方法对数据量的要求都是最 



少的，并易于使用和理解。 
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在本章中，我们讨论三种预测 方法： 移动平均法、加权移动平均法和指数平滑法。每一种方 
法的目的都是为了消除时间序列的不规则成分所造成的随机波动，因此它们都被称为平滑法。平 
滑法适于比较平稳的时间序列，即没有表示明显的趋势、循环或者季节影响，在这种情况下平滑 
法很适应时间序列的水平变化。但是，如果有明显的趋势、循环或者季节影响，则平滑法必须经 
过修正才能较好地反映时间序列变化。 

平滑法易于使用，在通常情况下对短期预计，例如下一个时期的预计，精确度很高。平滑法 
里面的指数平滑法对数据的要求量最少，因此当我们需要对大量项目进行预测时。使用指数平滑 
法是一个很好的选择。 


移动平均法 


移动平均法 (moving averages ) 使用时间序列中最近的 n 个数值的平均值作为下一时期时间序列 
的预测。移动平均法的数学计算公式 如下： 


移动平均值 

移动平均值 = 最近疗个 数值） 

(18.1) 


71 



表 18. 1 

汽油销置时间序列 

星期 

销量(千加仑） 

1 

17 

2 

21 

3 

19 

4 

23 

5 

18 

6 

16 

7 

20 

8 

18 

9 

22 

10 

20 

11 

15 

12 

22 


“移动”这个词的含义 在于： 每次计算出时间序列的一个新观测 
值，就用它来代替公式 （18. 1) 中最旧的观测值并计算出一个最新的 
平均值。因此，当新的观测值可以代入计算式中时，平均值将会变 
化或者移动。 

为了阐述移动平均法，让我们考察表 18.1 中12个星期的数据 
和图18.5。这些数据所记录的是位于佛蒙特州本宁顿的一个汽油销 
售商在过去12个星期中所销售的汽油加仑数。图 18.5 表明，虽然 
存在随机因素，但是时间序列随着时间的推移而发生的变化是平稳 
的。因此，可以应用本章所述的平滑法。 

为了使用移动平均法来预测汽油销量，首先我们应该选择移动 
平均法里面所包含的数据个数。例如，我们使用3周的平均值来进 
行预测。汽油销量的时间序列中第一个3周的销量平均值计算如 
下： 


移动平均值 (1—3 周） = 17+21 + 19 = 19 


然后我们利用这个移动平均值来预测第4周的汽油销量，由于第4周的实际销量是23,所以第4 
周的预测误差是23 -19 =4。通常说来，预测所产生的误差即为时间序列的实际观测值和预测值 
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0123456789 10 11 12 

周 

图 18.5 汽油销量时间序列 

之间的差。 

第2个3周移动平均值计算 如下： 

移动平均值 (2-4 周）^ 21 + 1 3 9 + 2 - =21 

因此，第5周的预测值是21。这次预测的误差是18 -21= -3。这样的话，预测误差有可能为正 
也有可能为负，取决于预测值是偏高还是偏低。汽油销量时间序列的3周移动平均值计算结果总 
结于表 18. 2和图 18. 6中。 


表 18. 2 3周移动平均值计算结果总结 


周 

时间序列值 

移动平均预测值 

预测误差 

预测误差平方 

1 

17 




2 

21 




3 

19 




4 

23 

19 

4 

16 

5 

18 

21 

-3 

9 

6 

16 

20 

-4 

16 

7 

20 

19 

1 

1 

8 

18 

18 

0 

0 

9 

22 

18 

4 

16 

10 

20 

20 

0 

0 

11 

15 

20 

-5 

25 

12 

22 

19 

3 

_9 




总计 0 

92 



25 


20 


10 


5 


销量(千加仑) 
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012 3 4 5 678 9 10 11 12 


周 

图 18. 6 汽油销量的时间序列和3周移动平均预测值 


预测精度并不是惟一的考虑 因素。 有时最精确的预测方法所需要的时间序列资料是 
很难获得的，或者要得到这些资料需付出很高的代价。因此，我们经常需要在费用和预 
测精度之间作出权衡取舍。 

预测精度 (forecast accumcy )。 选择预测方法的一个重要考虑因素是预测精度。很明显，我们 
希望误差尽可能的小。表 18.2 中的最后两栏是预测误差和预测误差的平方，它们可以用于评估精 
度。 

对于汽油销量时间曲线，我们可以使用表 18. 2中最后一栏来计算误差的平方和。计算可得 

误差平方和的平均值 =-y = 10. 22 

误差平方和的平均值通常被 称为均方误差 (mean squared error , MSE ) 。 MSE 均方误差经常用于度量 
预测方法的精度，也是我们本章所使用的。 

正如我们前面所提到的，要使用移动平均法，我们首先必须选择移动平均值里面所应包含的 
数值个数。毫无疑问，对一个特定时间序列，不同步长的移动平均值对时间序列的预测精度是不 
同的。选择移动平均数中所包含的数值个数的一个可能的方法是通过实验和误差来确定，即所选 
定的步长应该使 MSE 的值最小。然后，如果我们假设历史数据的最佳步长同样适合于将来情况， 
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则我们可以用这个使历史事件序列的均方误差最小的最佳步长来预测时间序列的下一个数值。本 
章结尾的练习2将会要求计算4个星期或5个星期的汽油销量的移动平均值。通过比较均方误 
差，我们可以得到在计算移动平均数时最合适的周数。 


加权移动平均法 

在移动平均法里，移动平均值的计算中所用到的每一个观测值都是相同的权值。 加权移动平 
均值 (weighted moving averages ) 涉及到为每一个数据选定不同的权值，然后计算最近的/ I 个数值的 
加权平均值作为预测值。在大多数情况下，离得最近的观测值所受到的权值最重，观测值离得越 
远则权值越小。例如，我们可以利用汽油销量的时间序列来阐明3周的加权平均值计算。离得最 
近的数据的权重是离得最远的数据权重的3倍，位于中间的那个观测值所受到的权重是离得最远 
的数据的2倍，第4周的数值计算 如下： 第4周数值 = 1/6(17)+2/6(21)+3/6(19) =19. 33。请 
注 意加权移动平均法的权值总和等于 1。 实 际上移动平均法的权值总和也等于 1, 而每一个观测值 
的权值都是1/3。但是，简单或者未加权的移动平均法所得到的预测值是19。 

预测精度 (forecast accuracy )。 要使用加权移动平均法，我们首先必须选择计算加权移动平均 
值的数值个数，然后对每一个数值给出权重。总的说来，如果我们相信离得比较近的数据比离得 
远的数据能够更好地预测将来，则我们应该给离得比较近的数据赋予较大的权重。但是，当时间 
序列变动较大时，为每一个数据选择近似相等的权值也许是最佳选择。如果要在特定数量的数据 
和权值的组合之间比较所给出的预测值的精度，我们同样可以使用 MSE 值作为测量预测精度的标 
准。即，如果我们假设这个数据和权重的组合能够最准确地反映历史情况，也能够最准确地预测 
将来，则我们也应该能够用这个数据和权重的组合使得时间序列的 MSE 值最小。 

指数平滑法 

指数平滑法比较简单，数据量需求也较少，因此对每一时期均要进行很多预测的公 

司来说，它是一种比较经济的预测方法。 

指数平滑法 (exponential smoothing ) 将历史事件序列的加权平均值作为对将来的预测；它是加 
权移动平均法的一个特例，在这里我们只选择一个权值，即离得最近的观测值的权值。其他数据 


的权值可以自动计算并且随着时间的越往前推移将会变得越小。指数平滑法的基本模型 如下: 


指数平滑模型 

Ft + i = cxYi + ( 1 — ex ) ft 

(18.2) 

式中 F l + l — 

-r + 1 期的时间序列预测值； 


Y t — 

- t 时期的时间序列实际值； 


F t —— 

时期的时间序列预 测值； 


a 

-平滑常数 (OS a $ l )。 
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公式 （18. 2) 表明 t + 1 时期的预测值是 i 时期的实际值和 i 时期的预测值的加权平 均值； 请特 
别注意 t 时期实际值的权值是 a , t 时期预测值的权值是 1- a 。 我们可以通过一个包含三个时期 
数据： I ，1^和 K 的时间序列，来证明任意时期的指数平滑法预测值也是时间序列的所 有历史 
实际数据的 加权平均值。为开始计算，我们可以令扒等于时间序列第1时期的实 际值； 即兄= 
K 。 因此，第2时期的预测值为 


F 2 — ocYy + ( 1 — oc) F\ 

=沾 + (1 - a ) K 
= 

所以第 2 期的指数平滑预测值等于时间序列第 1 期的实际值。 
第3期的预测值为 


F 3 = aY2 + ( 1 - a) F 2 = aYi + (1 - a) l^i 
最后，将 F 3 的表达式代入 F 4 的表达式，我们可以得到 

Fa - cxY^ + ( 1 - a) F 3 

= 0^3 + ( 1 - a ) [ aYi + (1 - a ) 7 t ] 

= ay 3 + a(l-a)y 2 + (l-a) 2 y 1 

“指数平滑”这个术语来自 于 对历史数据进行加权的指数性质。 

因此， f 4 是前三个时间序列值的加权平均值。 h ， y 2 ， 7 3 的系数，或者权值的总和等于1。通常 
我们可以得到一个相似的 结论： 任何预测值兄 +1 都是历史时间序列值的加权平均值。 

尽管指数平滑法所提供的预测值是所有历史观测值的加权平均值，但是我们并不需要将所有 
历史数据保存到计算机上以进行下一时期的预测。事实上，一旦选 择了平滑常数 (smoothing con - 
stant ) a , 我们仅仅需要两项信息即可计算预测值。公式 （18.2) 表明： 如果给定 a ， 我们只需要知 
道 t 时期的时间序列实际值和预测值，即 r , 和仄，就可以计算 《 + i 期的预测值。 

为了说明指数平滑法的预测，我们可以考察表 18. 1和图 18.5 中的汽油销量时间序列。由于 
第2时期的指数平滑法预测值等于第1时期的时间序列实际值，而且有 y l = i 7, 所以，我们在开 
始指数平滑计算时可令 F 2 = 17。 参考表 18. 1中的时间序列，我们发现第2时期的时间序列实际 
值 h =21。 因此，第2时期的预测误差为21 -17 =4。 

继续利用指数平滑常数《 = 0,2来进行指数平滑计算。我们可以得到第3时期的预测 如下： 

F 3 =0.2 y 2 +0.8^2=0.2(21) +0.8(17) =17.8 

一旦得知第3期的时间序列实际值 y 3 = 19, 我们可以得到第4期的预测 如下： 

F 4 =0.2 y 3 +0. 8 F 3 =0.2(19) +0.8(17.8) =18.04 

通过继续指数平滑计算，我们可以确定每周的预测值和相应的预测误差，如表 18.3 所示。请 
注意我们没有给出第1期的指数平滑预测和预测误差，因为对它进行预测是不可能的。对第12 
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周，我们有 K .2 = 22, F i2 = 18. 48 o 在知道第13周的实际值之前，我们是否能够利用这些信息来 
预测第13周呢？利用指数平滑模型，我们可以得到 

F ,3=0. 2 F .2+ 0.8 F 12 = 0.2(22) +0.8(18.48) = 19. 18 


因此，第13周销量的指数平滑预测值为19.18,即19 180加仑汽油。利用该预测，公司可以相应 
表 18. 3 汽油销量的指数平滑预测值和预测误差总结(平滑常数《 = 0.2) 


周 

时间序列值 

指数平滑预测值 

预测误差 

⑺ 

( Y t ) 

( F ,) 

( Y , - F t ) 

1 

17 



2 

21 

17. 00 

4. 00 

3 

19 

17. 80 

1.20 

4 

23 

18.04 

4. 96 

5 

18 

19. 03 

-1.03 

6 

16 

18. 83 

-2. 83 

7 

20 

18.26 

1.74 

8 

18 

18.61 

-0.61 

9 

22 

18. 49 

3.51 

10 

20 

19. 19 

0. 81 

11 

15 

19. 35 

-4. 35 

12 

22 

18. 48 

3,52 


地制定计划和决策。预测的精度只有在第13周周末才能获知。 

图 18. 7是时间序列的实际值和预测值的散点图。请特别注意预测值是如何将时间序列中的不 
规则波动平滑消除的。 

预 测精度 (forecast accuracy ) 。在前面的指数平滑计算中，我们使用指数平滑常数 ct = 0. 2。虽 
然 a 在0和1之间的任意值都是可以接受的，但是有些 a 值所产生的预测值比别的 a 值更为精 
确。为了观察如何选择一个更为合适的 a 值，我们可以将基本指数平滑模型改写为如下 形式： 

F t + ] =■ olYi + { \ ^ ol ) F t 
Ft + i ^ cx.Yt Ft ~ olFi 

F , + l = F ,+ a ( K - F t ) (18.3) 

t 

t 时期的预测值 时期的预测误差 

因此，新的预测值 F t + 1 等于历史预测值 F , 加上一个调整值，调整值等于 a 乘上最近的预测误差 
K - F ,。 即通过调整 i 时期的预测值和一部分预测误差我们可以得到 f + 1 期的预测值。如果时间序 
列包含大量的随机变异，我们倾向于使用较小的平滑常数。这样选择的理由 在于： 许多预测误差 
归因于随机变异，我们不希望对预测作出过度的反映和过快的调整。对于随机变异较小的时间序列， 
可以选取较大的指数平滑常数，这样做的优点是在出现预测误差时可以迅速改变条件调整误差。 
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图 18.7 汽油销量时间序列的实际值和预测值的散点图（平滑常数《 = 0.2) 

确定指数平滑法预测精度的标准依然是选择 a 值，这和我们在计算移动平均数中所提出的确 
定包含时期个数的准则相同，即所选择的 a 值应使均方误差 （ MSE ) 值达到最小。表 18.4 是汽油 
销量时间序列用 a =0.2 进行指数平滑预测的均方误差计算综述。请注意，误差平方项比时期项 

表 18.4 汽油销置的均方误差 ( MSE ) 计算综述 （a =0.2) 


周 

时间序列值 

预测 

预测误差 

预测误差平方 


( Y t ) 

( F t ) 

( Y ( - F ( ) 

( Y , - F t ) 2 

1 

17 




2 

21 

17.00 

4.00 

16. 00 

3 

19 

17.80 

1.20 

1.44 

4 

23 

18.04 

4. 96 

24. 60 

5 

18 

19.03 

-1.03 

1.06 

6 

16 

18. 83 

-2. 83 

8,01 

7 

20 

18, 26 

1.74 

3.03 

8 

18 

18.61 

-0.61 

0,37 

9 

22 

18.49 

3.51 

12. 32 

10 

20 

19. 19 

0.81 

0.66 

11 

15 

19. 35 

-4.35 

18.92 

12 

22 

18.48 

3.52 

12.39 



MSE = 98 1 : 

= 8.98 

总计 98. 80 


销量(千加仑) 
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数少一个，因为我们没有可以用来对第1时期进行预测的历史资料。不同的 a 值能否提供一个较 
小的，而且也更为合适的均方误差值呢？也许回答这个问题的最直接的办法是用另一个 a 值来进 
行测试，然后再将所得的均方误差和用平滑常数 a =0.2 所得的均方误差 8 . 98来进行比较。 

a = 0.3 的指数平滑预测结果如表 18.5 所示，因为 MSE = 9.35, 我们可以看到使用当前数据 
资料，指数平滑常数 a =0.3 的结果比指数平滑常数 a =0.2 的结果所得的精确度要差。因此，我 
们倾向于使用原来的平滑常数 a = 0.2 o 利用这种实验方法计算其他的 a 值，我们可以发现最为 
合适的指数平滑值，这个值可以应用于指数平滑模型中以预测将来。随着时间的往后推移，我们 
会得到新的时间序列观测值，然后我们可以分析新近收集的时间序列数据，确定是否需要修改指 
数平滑常数以得到更好的预测结果。 


表 18. 5 汽油销量的均方误差 ( MSE ) 计算综述 （a =0. 3) 


周 

时间序列值 

预测 

预测误差 

预测误差平方 

(0 

U ) 


( Y ： - F t ) 

( Y ：- F t ) 2 

1 

17 




2 

21 

17. 00 

4.00 

16.00 

3 

19 

18. 20 

0. 80 

0.64 

4 

23 

18.44 

4.56 

20. 79 

5 

18 

19. 81 

-1.81 

3. 28 

6 

16 

19. 27 

-3.27 

10. 69 

7 

20 

18.29 

1.71 

2. 92 

8 

18 

18.80 

-0. 80 

0. 64 

9 

22 

18.56 

3.44 

11.83 

10 

20 

19. 59 

0.41 

0. 17 

11 

15 

19.71 

- 4. 71 

22. 18 

12 

22 

18.30 

3. 70 

13.69 



1 一 102.83 
MSE 一 11 

= 9.35 

总计 102. 83 



1. 衡量预测精度的另外一种尺度 是平均绝对偏 
差 ( MAD )。 它很简单，就是所有预测误差的 
绝对值的平均数。根据表 18.2 中的误差， 
我们可以 得到： 


MAD = 


4 + 3 + 4+1+0 + 4 + 0 + 5 + 3 

9 ~ 


= 2. 67 


均方误差和平均绝对偏差的一个主要区别 
是： 均方误差受较大的误差影响比受较小误 
差的影响要大的多（因为均方误差所计算的 
是误差的平方）。选择衡量预测精度的方法 
并不是一件简单的事。实际上，即使是预测 
专家也经常为选择哪一种衡量方法产生分 
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歧，我们在本章使用 MSE 作为测量方法。 

2. 棋盘式对照表是一种辅助工具，可以用于指 
数平滑法选择合适的 a 值，也可以用于加 
权移动平均法选择权值。在棋盘式对照表 


中，根据时间序列资料和预测公式，我们可 
以试验不同的 a 值（或者移动平均法的不同 
权值），并对它们进行选择以使 MSE 或 
MAD 的值最小。 



方法 



自测题 


考察下列数据: 


周 

1 

2 

3 

4 

5 

6 

值 

8 

13 

15 

17 

16 

9 


a . 求这个时间序列的3周移动平均值，第7周的预测值是多少？ 

b . 计算3周移动平均值的均方误差。 

c . 用 a = 0.2 计算这个时间序列的指数平滑值，第7周的预测值是多少？ 

d . 将3周的移动平均预测值和 a =0.2 的指数平滑预测值进行比较，哪一种方法所提 
供的预测较好？ 

e . 用指数平滑常数 a =0.4 来计算指数平滑预测值 ， a = 0.2 和 a =0.4 所提供的指数 
平滑预测值哪一个更好？并解释原因。 


2. 参考表 18. 1中的汽油销量时间序列数据。 

a . 计算这个数列的4周和5周的移动平均值。 

b . 计算这个数列的4周和5周的移动平均值的 MSE 。 

c . 在移动平均值计算中应该选择历史资料中几周的数据来计算最为合适？ 3周的移动平均值的 
MSE 值是 10.22。 


3. 再参考表 18. 1中的汽油销量时间序列数据。 

a . 令离得最近的数据的权值为1/2,其次的数据的权值为1/3,最远时期的数据权值为1/6, 
计算这个时间序列的3周加权移动平均预测值。 

b . 计算 ( a ) 中加权移动平均预测值的均方误差 MSE 。 在加权移动平均预测值和移动平均预测值 
中，你更倾向于使用哪一种预测方法？ 

c . 假设允许选择任意权值组合，只要满足所有权值总和为1的条件。你是否总是能够找到这样 
一组权值组合，它可以使加权移动平均值的 MSE 值比移动平均值的 MSE 值要小？解释原 
因。 
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4. 根据表 18. 1中的汽油销量时间序列数据计算指数平滑预测值，其中 a = 0. 1。利用 MSE 值作 
为标准，对汽油销量时间序列，指数平滑常数《=0.1和 a = 0.2 你倾向于使用哪一个？ 

5. 对表 18.1 中的汽油销量资料，平滑常數 q : = 0.2, 公式 （18.2) 表明第13周汽油销量的预测值 
为 F 13 =0.2 F 12 + 0. 8〜，第12周的预测值为 F , 2 = 0.2 yn +0.8 Fno 将这两个结果结合起来， 

第13周的预测值可以 写成： 

F , 3 =0.2 y , 2 +0.8 x (0.2 Fi , +0. 8 F n ) =0.27 12 +0. 16 7,, +0. 64 

a . 根据/^=0.21^ = 0.8/^。（/^和 F ,。 类似），继续扩展 F 13 的表达式，使它表示为历史数据 
Yp _, Yn f Fio , F9 , K 和第 8 期预测值的组合。 

b . 参考历史数据 y 12 , i ^， y ,。， ％，7 8 的系数或权值，对于指数平滑法在得出新的预测值 
时，是如何对历史数据进行权值分配的，你有什么样的观测结果？请将这个加权方式与移动 
平均法的加权方式进行比较。 

应用 

6. 在过去12个月中， Hawkins 公司每个月及时收到的货物百分比为80, 82，84，83，83，84, 
85， 84， 82， 83， 84， 83。 

a . 利用指数平滑法预测3个月的移动平均值，其中 a =0.2, 并将结果和3个月的移动平均预 
测值作比较，哪一种预测方法更好？ 

b . 下一个月的预测值是多少？ 

7. 以下是某 3 A 级公司的债券在连续12个月中的利息率： 

9.5 9. 3 9.4 9.6 9.8 9.7 9.8 10.5 9.9 9.7 9.6 9.6 

a . 计算这个时间序列的3个月和4个月的移动平均值。在3个月和4个月的移动平均值中，哪 
一个提供了更好的预测结果？解释原因。 

b . 下一个月的移动平均预测值是多少？ 

8. 在12个月中，阿拉巴马州的建筑合同值如下（百万美 元）： 

m 3> 

自测题 240 350 230 260 280 320 220 310 240 310 240 230 

a . 利用指数平滑法预测3个月的移动平均值，其中 a =0.2, 并将结果和3个月的移 
动平均预测值作比较，哪一种预测方法更好？ 

b . 下一个月的移动平均预测值是多少？ 

9. 下面的时间序列是某种产品在过去12个月中的 销量： 


月 

销量 

月 

销量 

1 

105 

7 

145 

2 

135 

8 

140 
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月 

销量 

月 

(续表) 

销量 

3 

120 

9 

100 

4 

105 

10 

80 

5 

90 

11 

100 

6 

120 

12 

110 


a . 令 a =0.3 计算该时间序列的指数平滑预测值。 

b , 用平滑常数 0.5 来计算指数平滑预测值，当平滑常数分别为 0.3 和 0.5 时，哪一个所提供 
的预测值更好？ 

10. 10个星期的商品期货指 数为: 7,35, 7.40, 7.55, 7.56, 7.60, 7. 52, 7.52, 7.70, 7. 62和 
7.55。 

a . 用 a =0.2 来计算指数平滑预测值。 

b . 用 a =0.3 来计算指数平滑预测值。 

c . 哪一个常数提供的平滑预测值更好？并预测第11周的期货指数。 

11. 下面的数据所表示的是15个季度的生产能力利用情况（百分 比）： 


季度/年 

利用情况(％) 

季度/年 

利用情况(％) 

1/1998 

82.5 

1/2000 

78. 8 

2/1998 

81.3 

2/2000 

78.7 

3/1998 

81.3 

3/2000 

78.4 

4/1998 

79.0 

4/2000 

80.0 

1/1999 

76.6 

1/2001 

80.7 

2/1999 

78.0 

2/2001 

80.7 

3/1999 

78, 4 

3/2001 

80.8 

4/1999 

78.0 




a . 计算这个时间序列的3个季度和4个季度的移动平均预测值。对2001年的第4季度，哪 
一个预测所提供的预测值更合适？ 

b . 用平滑常数 a =0.4 和 a =0.5 来计算2001年第4季度的预测值，哪一个平滑常数所提供 
的预测值更为精确？ 

c . 在 ( a ) 和 ( b ) 的分析基础上，哪一种 方法： 移动平均法或者指数平滑法，所提供的预测更为 
精确？解释原因。 


18.3 趋势推测法 


在本章中，我们说明了如何对拥有长期线性趋势的时间序列进行预测。这种类型的时间序列 
呈现连续的增长或降低趋势，因此可以应用趋势推测法。由于这种时间序列并不稳定，所以无法 
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0123456789 10 

年 

图 18.8 自行车销量时间序列图 

样，最小二乘法也是我们用来建立关于自行车销量时间序列的趋势线的工具。特别地，我们可以 
利用回归分析来估计时间和自行车销量之间的关系。 

在第14章中，描述自变量％和因变量 y 之间的直线关系的估计回归方程如下 所示： 

y - bo + b ' x (18. 4) 

需要强调的是，在预测中，自变量是时间，我们将在公式 （18. 4) 中用 t 来代替； c ; 除此之外，我们 
将使用 L 来代替 h 因此，对一个线性趋势,销量的估计量作为时间的函数可写成如下 形式： 


应用前面章节中所讲述的平滑法。 

^ 考虑过去10年自行车销量的时间序列，表 18. 6和图 18. 8显示 

表 18. 6 § 行车销置时间序列 _某个自行车制造細自行车麵_序列。第-年销售的自行 

年 销量(千辆） 车数量为21 600辆，第2年销售的自行车数量为22900辆，等等。 

⑺ {Yt) 在第10年，销售了 31 400辆自行车。虽然图 18. 8显示了在过去10 

1 2L6 年中有上下波动的运动轨迹，但是从总体看来时间序列还是呈增长 

2 22 - 9 或上升的趋势。 

3 25 * 5 我们并不打算让时间序列的趋势成分去追溯图像的每一次上升 

4 21 9 

' 或下降运动。但是，趋势成分应该反映时间序列的逐渐变动，在这 

5 23 9 

' 个例子中，即逐渐的上升趋势。经过对表 18. 6中的时间序列数据和 

6 27.5 

? M 5 图 18.8 中的图像进行分析，我们认为图 18. 9所示的线性趋势对时 

g 29 ? 间序列的长期运动描述是比较合理的。 

9 28 ' 6 我们利用自行车的销售数据，来说明应用回归分析判断线性趋 

10 31.4 势的计算。回顾第14章中关于简单线性回归分析的讨论，我们介绍 

了怎样利用最小二乘法来发现两个变量之间的最佳直线关系，同 



2109876543210 ^ 

3332222222222 

销量(千辆) 
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0 

123456789 10 

年 

图 18.9 用线性函数描述自行车销量趋势 


线牲趋势方程 

Ti = bo bit 

(18.5) 

式中 Z —— 

t 时期的时间序列趋势值； 


bo —— 

-趋势线的 截距； 


b ' — 

-趋势线的 斜率； 


t 

-时间。 


在公式 （18.5) 中， 

我们令 i = 1表示时间序列数据中第一个观测值所对应的时间 ， t 

= 2 表示第 


二个观测值所对应的时间，依此类推。请注意，对自行车销量的时间序列， £ = 1 对应着最早的 
时间序列值 ， i = 10 对应着最近的数据。 （18.5) 中的估计回归系数 （6, 和6。）的计算公式如下所 


7K : 


计算斜率 U 0 和截距 U 。） 




1 'LtYt- 

( 'Lt'LY l )/n 

(18.6) 


"1- It 2 - 

-( 'IS) 1 / n 


bo = Y - b\t 


(18.7) 

式中 Y- 

一 i 时期的时间序列值； 



n 

一时期数； 


i 

V— 

一时间序列的平均值； P = 

- S Y t / n; 


1 

一 f 的平均值 ； i ^ t/Tlo 
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利用公式 （18.6) 和 （18.7) 以及表 18.6 中的自行车销量数据，我们可以计算6。和 h 的值，如下所 

7J \ : 


总计 


t 

Y t 

tY , 

t 2 

1 

21.6 

21.6 

1 

2 

22.9 

45.8 

4 

3 

25.5 

76.5 

9 

4 

21.9 

87.6 

16 

5 

23.9 

119.5 

25 

6 

21.5 

165.0 

36 

7 

31.5 

/ 

220.5 

49 

8 

29.7 

237.6 

64 

9 

28.6 

257.4 

81 

10 

31.4 

314.0 

100 

55 

264.5 

1 545.5 

385 


因此 


55 

lo 


= 5.5 


F = 
b ) = 

bo = 


264.5 

To" 




26.45 


1 545.5-(55)(264.5)/10 
385-(55) 2 /10 

26. 45-1. 10(5.5) =20.4 


= 1 . 10 


T t = 20. 4 + 1. \t 


(18.8) 


在用趋势方程进行预测之前，应该进行统计显著性检验（见第 14 章）。在实践中，这 
样的检验将成为拟合趋势线的程序之一。 


公式 （18. 8) 即为自行车销量时间序列的线性趋势成分的表达式。 

斜率为 1.1 表明在过去的10年中，公司每年的销量增长大约为1 100个单位。如果我们假设 
过去10年的销量趋势对未来也是适用的，则公式 （18.8) 可以用来预测时间序列的趋势成分。例 
如，将 t = 11代人公式 （18. 8) 中可以得到下一年的预测值 r n 。 即 

ru =20.4 + l . 1(11) =32.5 

因此，仅仅通过使用趋势成分，我们就可以预测出下一年的自行车销量为32500。 

用线性函数来拟合趋势是比较常见的情形，但是，正如我们在前面所讨论过的，有时候时间 
序列会呈曲线或非线性，就像图 18. 10中所示。在第16章中，我们讨论了怎样用回归分析来拟合 
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图 18. 10 A 中所示的曲线关系。关于图 18.10 B 中所示的如何建立更加复杂的关系回归模型，我 
们将在更高级的教材中详细讨论。 


Y t 



Y t 



B . 同伯茨 ( Gompertz ) 增长曲线 


图 18. 10 非线性趋势曲线形态的几种可能形式 



方法 


12 . 



自测题 


考察以下的时间 序列: 


t 

1 

2 

3 

4 

5 

Y t 

6 

11 

9 

14 

15 


为该时间序列的线性趋势成分建立方程，《 = 6时的预测值是多少？ 
13. 考察以下的时间 序列： 


t 

1 

2 

3 

4 

5 

6 

Y t 

205 

202 

195 

190 

191 

188 


为该时间序列的线性趋势成分建立方程，^=7时的预测值是多少? 

应用 


14, 



自测题 


在过去6年中，某所州立大学的招生人数（千人)资料如下 所示: 


年 

1 

2 

3 

4 

5 

6 

招生人数 

20.5 

20.2 

19.5 

19.0 

19. 1 

18.8 
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建立该时间序列的线性趋势成分方程，评论这个学校的招生人数变化情况。 


15. 下表提供的是过去7年中，在一所重点大学举办家庭足球赛事的平均参加人数，建立该时间 
序列的线性趋势成分方程。 


年 

1 

2 

3 

4 

5 

6 
7 


参加人数 

28 000 

30 000 

31 500 
30 400 
30 500 

32 200 
30 800 


16. 下表是 B . J . Scott Motors 公司10年的汽车销量时间 序列: 


年 

1 

2 

3 

4 

5 

6 

7 

8 

9 

10 


销量 

400 

390 

320 

340 

270 

260 

300 

320 

340 

370 


请画出这个时间序列的散点图，并评论线性趋势成分的合理性。对于这个时间序列的趋势轨 
迹，你认为使用哪种类型的函数形式最为适合？ 

17. 某个小型制造公司的总经理很关注过去几年中制造成本的连续增加。下表所提供的资料，是 
该公司在过去8年中主打产品的单位成本时间 序列： 

年 单位成本(美元） 

1 20. 00 

2 24. 50 

3 28.20 

4 27. 50 

5 26. 60 

6 30.00 

7 31,00 

8 36.00 
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a . 画出这个时间序列的图形。是否出现线性趋势？ 

b . 建立这个时间序列的线性趋势成分方程，该公司意识到它的单位成本每年的平均增加额是 
多少？ 

18. 以下是 Walgreen 公司/10年间的股票每股 收益： 

0.64, 0. 73, 0.94, 1. 14, 1.33, 1.53, 1.67, 1.68, 2,10， 2. 50 


a . 利用这个时间序列的线性趋势来预测下一年的收益。 

b . 通过分析这个时间序列，你认为 Walgreen 公司情况怎么样？历史数据是否可以表明 Wal - 
green 公司是一个良好的投资对象？ 

19.在90年代末，很多公司开始裁员以降低公司运营成本，这种成本削减的结果之一是私人企业 
中经理级的职位百分比下降，以下的数据是在1990年到1995年中，女性经理的百分比 （ r/w 
Wall Street Journal Almanac, 1998) 0 


年 

1990 

1991 

1992 

1993 

1994 

1995 

招生人数 

7.45 

7.53 

7. 52 

7.65 

7.62 

7.73 


a . 建立这个时间序列的线性趋势方程。 

b . 利用这个线性趋势方程来估计1996年和1997年的女性经理的百分比数。 

20 . 以下是三角航空公司过去10年的总收入资料（单 位： 百万美 元）： 


年 

总收入 

年 

总收入 

1 

2 428 

6 

4 264 

2 

2 951 

7 

4 738 

3 

3 533 

8 

4 460 

4 

3 618 

9 

5 318 

5 

3 616 

10 

6 915 


a . 建立该时间序列的线性趋势方程。对三角航空公司过去10年间的总收入，这个方程能说明 
什么问题？ 

b . 预测第11年和12年的总收入。 ': 1 

21. ACT 网络有限公司开发、销售、制造并销售集成化的多领域网絡产品。以下是从1992年到 
1997年的年销售收入资料 （ Stock Investor Pro , American Association of Individual Investors , Au ¬ 
gust 31, 1997) : 
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年 

销置(百万美元) 

1992 

5.4 

1993 

6.2 

1994 

12.7 

1995 

20.6 

1996 

28.4 

1997 

44.9 


a . 建立该时间序列的线性趋势方程。 

b . 该公司每年的平均销量增长额是多少？ 

c . 利用这个趋势方程来预测1998年的销量。 


18. 4趋势和季节成分 

我们已经阐述了如何预测含有趋势成分的时间序列。在本节中，我们将把讨论扩展到对同时 
有趋势和季节成分的时间序列进行预测。 

商业和经济上的许多情形涉及到时期对时期的比较。例如，我们或许有兴趣想研究失业人数 
比上个月增加了 2%，钢产量比上个月增加了 5%,或者电力产量比上个月下降了 3%等等这些问 
题。但是，使用这些资料时必须相当谨慎，因为只要有季节影响时，这些比较往往会误导人。例 
如，从8月份到9月份，电力的消耗量减少了3%，这个现象有可能仅仅是因为空调使用减少这 
个季节因素所造成的，而并不是因为用电量将长期减少。事实上，在调整季节影响以后，我们甚 
至可能看到用电量反而增加了。 

剔除了季节影响以后的时间序列被称为消除了季节影响的时间序列。经过这样处理后，时期 
和时期的对比将会更有意义，并有助于确定是否有趋势的存在。本章我们所介绍的方法适用于仅 
有季节影响的情形，也适用于既有季节影响又有趋势成分的情形。第一步是计算季节指数，并用 
它们来消除季节影响。然后，如果消除了季节影响后的数据有明显的趋势成分，我们可以对它们 
使用回归分析来估计趋势成分。 

乘法模型 

除了趋势成分 （ r ) 和季节成分 （ s ) 外，我们可以假设时间序列有不规则成分（/)。不规则成分 
用来解释不能被趋势成分和季节成分说明的其他任何随机影响。用 r ( , &，/,来代表时间序列 r 
中的趋势成分、季节成分和不规则成分，我们假设时间序列值以 y : 表示，它可以表示成下面的时 
间序列乘法模型 （multiplicative time series model ) : 


Y t = T t x S t x I t 


( 18 . 9 ) 
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表 18.7 

年 


2 


3 


4 


电视机的季度销置数据 在这个模型中， r , 是被预测的项目的趋势。但是，&和/,成分 
销置(千台） 在相关项目中测量，如果其数值大于 1.00 则表明影响在趋势之 

1 4.8 上，数值小于 1.00 则表明其影响在趋势之下。 

2 4.1 根据表 18.7 和图 18.11 中的季度资料，我们可以说明带趋 


3 

4 


2 

3 

4 


2 

3 

4 


2 

3 

4 


6 

6 

5 

5 

6 
7 
6 
5 


6 

5 


0 

5 
8 
2 
8 

4 
0 

6 

5 


0 

4 


势成分、季节成分和不规则成分的乘法模型的使用。这些资料是 
某电视机生产厂商在过去4年中的电视机销售数量（以千台为单 
位）。我们首先开始介绍时间序列的季节成分。 


计算季节指数 

图 18. 11表明在每年的第2个季度销量达到最低，第3个季 
度和第4个季度销量开始回升。因此，我们可以推断在电视机的 
销量时间序列中存在季节影响。我们首先通过计算移动平均数， 
将复合在一起的季节成分 S , 和不规则成分 A 与趋势成分7；区分 
开，然后开始计算程序来确定每个季度的季节影响。 

我们在每一次计算中使用一年的数据。因为所使用的数据是 
季度时间序列，所以在每一次移动平均值计算中我们都使用4项 
数据。电视机在第一个4季度中的销量移动平均值计算 如下： 


第一个移动平均值= 


4.8+4. 1 +6.0 + 6.5 21.4 


4 


4 


= 5.35 



1 年 2 年 3 年 4 年 

年/季 

图 18. 11电视机季度销 置的时 间序列 
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请注意前4个季度的移动平均值正好等于时间序列第1年的季度销量的平均数。继续计算移动平 
均值，加上第2年第1季度的数值 5. 8 ,去掉第1 年第1季度的数值 4. 8 ,得到第2 个移动平均数 
为 


第二个移动平均值= 4 . 1 + — ^- 6,5 + 5,8 =^-^=5. 60 

同理，第三个移动平均值计算结果为 (6. 0 + 6. 5 + 5. 8 + 5. 2) /4 = 5. 875。 

在我们对整个时间序列进行移动平均值计算之前，我们可以回顾第1个移动平均值计算结果 
5.35。 5. 35这个数字正好是第1年（包括各个季节）各个季度销量的平均数。我们回头分析 5.35 
这个计算结果，发现它对应于所有移动平均数的中间季度。但是，请注意，在确定中间季度时我 
们会碰到困难，因为在移动平均值中只有4个季度，并不存在中间季度。 5.35 的计算结果对应着 
第2季度的后半部分和第3季度的前半部分，同样，如果我们考察下一个移动平均值 5. 60,则中 
间季度对应着第3季度的后半部和第4季度的前半部。 

回顾计算移动平均数的目的，是为了将复合的季节成分和不规则成分分离。但是，我们所计 
算出来的移动平均值并不直接对应着时间序列的原始季度。我们可以解决这个困难：在这连续的 
移动平均值中取中间值。例如，如果 5.35 对应着第3季度的前半部， 5. 60对应着第3季度的后 
半部，则我们可以取 (5. 35 +5. 60)/2 = 5. 475作为第3季度的平均值。同样，我们可以用 (5. 60 + 
5. 875)/2 =5. 738来对应第4季度。这个结果被称为移 动平均值的中间值。 表 18. 8是关于电视机 
销量数据的移动平均值计算的完整总结。 

如果在移动平均值计算过程中，数据点的数目是单数，则中间点将对应着时间序列中的某个 
时期。在这种情况下，我们没有必要像在表 18.8 中的计算那样，对移动平均值取中间值以对应于 
某个特定的时间序列。 

表 18.8 中的移动平均值中间值能告诉我们时间序列的什么问题呢？图 18. 12是时间序列实际 
值和移动平均值中间值的散点图。请特别注意移动平均值的中间值是如何消除时间序列的季节和 
不规则波动的影响的。在所计算出的4个季度的移动平均数中，并不包括季节影响所产生的波 
动，因为季节成分的影响已经被剔除了。移动平均值中间值的每一个数据点所代表的时间序列都 
是没有季节成分和不规则成分影响的数值。 

用时间序列的每一个观测值除以相对应的移动平均值中间值，我们可以确定时间序列的季节 
不规则影响值。例如，第1年第3季度的综合季节不规则影响值为6.0/5.475 = 1.096。表 18.9 
总结了整个时间序列的季节不规则影响值。 

考察第3季度。第1、2、3年第3季度的季节影响值分别是1.096， 1.075 和 1. 109。因此， 
在整个过程中，第3季度的季节不规则影响值比全年平均水平要高。由于季节不规则值每年的波 
动主要都是由于不规则成分所引起的，我们可以取其平均值，这样做可以消除不规则影响并得到 
第3季度的季节影响估计值。 

第3季度季节影响值= 1 ‘ Q96 - +1 ~3 75+ - L 109 =1-09 
我们倾向于使用 1.09 作为第3季度 的季节指数。 在表 18. 10中，我们总结了关于电视机销量时间 
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移动平均值中间值时间序列 


1234123412341234 
1年 2年 3年 4年 

- 年/季 

图 18. 12 电视机季度销量时间序列和移动平均值中间值 

序列季节指数的计算结果。四个季度的季节指数分 别是： 第1季度 a 93;第2季度 0.84; 第3季 
度 1.09; 第4季度 1. 14。 

表 18. 10中数值的评注提供了关于电视机销量的季节成分的一些观测值。最好的销售季度是 
第4季度，销量比平均季度销量高出14%。最差的，或者最少的销售季度是第2 季度； 它的季节指数 
0 . 84表明其平均销量比季度平均销量值低16%。季节成分很明显地对应着人们观看电视的兴趣，由于 


*18.8 关于电视机销置时间序列的移动平均值中间值的计算结果 


年 

1 


2 


4 


季度 

1 

2 

3 

4 
1 
2 

3 

4 
1 
2 

3 

4 
1 
2 

3 

4 


销最(千台) 
4.8 
4. 1 
6.0 
6 


第4季度移动平均值 


移动平均值中间值 


6 


6 


2 

8 

4 

0 

6 


6 
5.9 
0 
8.4 


5. 350 
5. 600 

5. 875 

6. 075 
6. 300 
6. 350 
6. 450 
6. 625 
6. 725 
6. 800 

6. 875 
7.000 

7. 150 


5.475 
5.738 
5.975 
6. 188 
6. 325 
6. 400 
6. 538 
6. 675 
6. 763 
6. 838 
6. 938 
7.075 


8.0 




o 


o 


电视机季度销量(千台) 
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表 18. 9 电视机销量时间序列的季节不规则影响值 


年 

季度 

销量(千台） 

移动平均值 

季节不规则成分值 

1 

1 

4.8 




2 

4. 1 




3 

6.0 

5.475 

1.096 


4 

6,5 

5.738 

1. 133 

2 

1 

5. 8 

5.975 

0. 971 


2 

5.2 

6. 188 

0. 840 


3 

6.8 

6. 325 

1.075 


4 

7.4 

6.400 

1, 156 

3 

1 

6.0 

6. 538 

0.918 


2 

5.6 

6.675 

0. 839 


3 

7.5 

6. 763 

1. 109 


4 

7.8 

6. 838 

1. 141 

4 

1 

6.3 

6. 938 

0. 908 


2 

5.9 

7.075 

0. 834 


3 

8.0 




4 

8.4 




表 18. 10 电视机销量时间序列的季节指数计算 


季度 

季节不规则成分值（5上） 

季节指数（叉） 

1 

0. 971,0.918,0. 908 

0. 93 

2 

0. 840, 0. 839, 0. 834 

0. 84 

3 

1.096, 1,075,1_ 109 

1.09 

4 

1. 133, 1. 156, 1. 141 

1. 14 


冬季到来人们的室外活动减少，因此观看电视的时间增加导致第4季度电视机销量达到高峰。第2季 
度的低销量反映了人们观看电视的兴趣减小,因为春季和初夏的活动吸引了很多电视的潜在消费者。 

在计算季节指数时，有时候我们需要对它进行最后的调整。乘法模型需要平均季节指数等 
于 1.00, 所以表 18.10 中的四个季节指数的总和必须等于 4. 00。换句话说，季节影响在一年 
之内必须是持平的。在我们的例子中季节指数的平均值等于 1.00, 因此，这种类型的调整就 
没有必要。在别的情形中，或许需要一个轻微的调整。季节指数进行调整是用每个季节指数乘 
以季度总和，然后再除以未调整的季节指数之和。举个例子，对于季度数据，每个季节指数乘上4 
再除以未调整的季节指数的和。为了获得合适的季节指数，有些练习需要进行这样的调整。 


消除季节影响的时间序列 


消除了季节影响后的资料可以用来比较连续时期的销量。没有消除季节影响的资 
料，相关的比较可在本期销售量和一年前同期销售量之间进行。 


计算季节指数的目的在于从时间序列中消除季节指数的影响。这个过程被称为消除时间序列 
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的季节影响。调整季节差异后的经济时间序 列消除季节影响的时间序列 (deseasonalized time series ) 

经常刊登在诸如《当前商务概览 》 (Survey of Current Business ) > 《华尔街日报》和《商业周刊》 

上。利用乘法模型的标记，我们有 

Y t = T t x Si x h 

将每个时间序列观测值除以相对应的季节指数，我们可以将季节影响从时间序列中消除。表 
18.11 总结了关于消除了季节影响的电视机销量时间序列，如图 18. 13所示。 


表 18. 11消除了季节影响的电视机销量时间序列值 


年 

季度 

销量(千台 ）（ W 

季节指数 （&) 

消除了季节影响的销量 （y t /S,= 7；/,) 

1 

1 

4.8 

0.93 

5, 16 


2 

4. 1 

0. 84 

4.88 


3 

6.0 

1.09 

5. 50 


4 

6.5 

1. 14 

5.70 

2 

1 

5, 8 

0. 93 

6. 24 


2 

5.2 

0. 84 

6. 19 


3 

6.8 

1.09 

6. 24 


4 

7.4 

1. 14 

6. 49 

3 

1 

6.0 

0. 93 

6.45 


2 

5.6 

0. 84 

6. 67 


3 

7.5 

1.09 

6.88 


4 

7.8 

1. 14 

6. 84 

4 

1 

6.3 

0. 93 

6.77 


2 

5.9 

0.84 

7. 02 


3 

8.0 

1.09 

7. 34 


4 

8.4 

1. 14 

7.37 



图 18. 13消除了季节彩响的电视机销量时间序列 
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1 496 


t 

r , (消除了季节影响） 

tY , 

1 

5. 16 

5. 16 

2 

4.88 

9. 76 

3 

5.50 

16.50 

4 

5.70 

22.80 

5 

6.24 

31.20 

6 

6. 19 

37. 14 

7 

6. 24 

43.68 

8 

6. 49 

51.92 

9 

6. 45 

58.05 

10 

6.67 

66, 70 

11 

6. 88 

75. 68 

12 

6.84 

82. 08 

13 

6. 77 

88.01 

14 

7.02 

98.28 

15 

7. 34 

110. 10 

16 

7.37 

117.92 

总计136 

101.74 

914.98 


利用消除了季节影响的时间序列来分析趋势 

虽然图 18. 13所显示的过去16个季度图像呈现出上下波动的运动轨迹，但是时间序列还是有 
明显的线性上升趋势。同样，我们可以使用前面章节所述的步骤来确定这个 趋势； 在这种情况 
下，数据是消除了季节影响后的季度销量。因此，对于这个线性趋势，销量的估计值可以表述成 
时间的函数，如下 所示： 

T t = bo + bit 

式中 T t —— £ 期电视机销量的趋 势值； 

bo ——趋势线的 截距； 
b , ——趋势线的斜率。 

和前面一样，对应于时间序列的第1 个观测值的时间 ， t =2对应于时间序列的第2个观 
测值的时间，依此类推。因此，对消除了季节影响的电视机销量时间序列 ， t = l 对应着第1个消 
除了季节影响的季度销量，£ = 16对应着最近的消除了季节影响的季度销量。6。和6,的计算公式 
如下 所示： 

bl= 

bo = Y ~ bit 

但是，请注意现在表示的是 t 时期的消除了季节影响的时间序列值，不是时间序列的实际值。 
利用6。和 h 的给定关系和表 18. 11中的消除了季节影响的销量数据，我们可以计算 如下： 


H149162536496481100121144169196225256 
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式中 


136 

76 " 


= 8. 5 


? = — =6.359 

914. 98-(136)(101.74)/16 
bl = 1 4% -（136) 2 /16 

bo =6. 359 -0. 148(8.5) =5. 101 




0. 148 


因此 

T t = 5. 101 +0. 148 i 

是这个时间序列的线性趋势成分的表达式。 

斜率 0.148 表示在过去16个季度中，在消除了季节影响以后，公司的平均销量增长值为每个 
季度148台。如果我们假设过去16个季度销量趋势依然适用于未来，则这个方程可以用来推测未 
来季度的时间序列趋势成分。例如，将 f = 17 代入方程，可以得到下一个季度的趋势推测值 r , 7: 


Tii = 5. 101 +0. 148(17) =7.617 

因此，趋势方程表明下一个季度的电视机销量预测为7 617台。同样，趋势方程对第18, 19, 20 
季度所作出的电视机销量预测分别为7 765, 7913, 8061台。 


季节调整 

当趋势和季节两种成分都存在时，进行预测的最后一步是利用季节指数调整趋势预测。再来 
看电视机销售的例子，我们对未来四个季度进行了趋势预测。现在我们必须用季节影响来调整预测 
值。第5年第1季度 U = 17) 的季节指数是 0. 93,所以，我们用季节指数 0. 93乘以趋势预测值 （ 乃 7 = 
7 617) 得到季节预测值。那么，该季度的预测值是7 617(0, 93) =7 084。表 18. 12给出了第17到第 
2时季节的季节预测。第4季度的预测值最大，销售9 190 台； 最低销售量是第2季度，销售6523台。 


表 18. 12 电视机销量时间序列的季度预测值 


年 

季度 

趋势预测值 

季节指数 

(见表 18. 11) 

季度预测值 

5 

1 

,1611 

0. 93 

(7 617)(0. 93) =7 084 


2 

7 765 

0. 84 

(7 765)(0. 84) =6 523 


3 

7 913 

1.09 

(7 913)(1.09) =8 625 


4 

8 061 

1. 14 

(8 061)(1. 14) =9 190 


根据月度资料建立模型 

在前面电视机销售的例子中，我们利用季度数据说明季节指数的计算。然而，许多企业利用 
月度数据作预测而不是作季节预测。这种情况下，本节介绍的方法应用时应做些小的修正。第一 
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步，用12个月的滑动平均替代4个季度的滑动 平均； 第二步，必须计算出来12个月的季节指 
数，而不是4个季度的季节指数。除此之外，其他的计算和预测过程相同。 


循环成分 

公式 （18. 9) 的乘法模型在数学上可以扩展到包含循环成分，即 

Y t = T t x C t x S t x L (18.10) 

循环成分和季节成分一样也可以表示为趋势的百分比。正如 18.1 节中所提到的，循环成分可以归 
因于时间序列的多年循环。它和季节成分相似，只是所经历的时期更长。但是，由于所涉及的时 
期太长，所以要获得充分的相关数据资料来估计循环成分，通常是有一定困难的。另外一个困难 
在于，循环周期通常是变化的。我们将在关于预测方法的教材中对循环成分作更进一步的讨论。 



方法 





22. 

考察下面的时间序列 数据： 




喔二參 

自测题 

季度 


年 



1 

2 

3 


1 

4 

6 

7 


2 

2 

3 

6 


3 

3 

5 

6 


4 

5 

7 

8 


a . 计算这个时间序列 4 个季度的移动平均值和移动平均值的中间值。 

b . 计算 4 个季度的季节指数。 

应用 

23. 某大学过去 3 年的教材季度销量(所销售的册数)数据 如下： 


季度 

第1年 

第2年 

第3年 

1 

1 690 

1 800 

1 850 

2 

940 

900 

1 100 

3 

2 625 

2 900 

2 930 

4 

2 500 

2 360 

2 615 
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a . 计算这个时间序列4个季度的移动平均值和移动平均值中间值。 

b . 计算4个季度的季节指数。 

c . 教材出版商什么时候的季节指数最大？这样的结果是否合理？请解释。 

24. 以下是佛罗里达州南部一个6单元公寓3年中的支出资料，请计算每个月的季节指数。用12 
个月的移动平均值 计算： 


支出 



第 1 年 

第 2 年 

第 3 年 

1 月 

170 

180 

195 

2月 

180 

205 

210 

3月 

205 

215 

230 

4月 

230 

245 

280 

5月 

240 

265 

290 

6月 

315 

330 

390 

7月 

360 

400 

420 

8月 

290 

335 

330 

9月 

240 

260 

290 

10月 

240 

270 

295 

11月 

230 

255 

280 

12月 

195 

220 

250 


25.在南加利福尼亚州，空气污染控制专家每小时检测空气中的臭氧、二氧化碳和二氧化氮的含 
量，每小时资料所组成的时间序列包含季节成分，它显示了一天中每个小时的污染物水平。 
以下是在7月15日，16, 17日，从早晨6点到下午6点的12个小时中，在城市中心区域观 
测到的二氧化氮含量水平。 

7月 15日： 25, 28, 35, 50, 60, 60, 40，35, 30, 25, 25，20 

7月 16日： 28，30, 35, 48, 60, 65, 50, 40, 35, 25, 20, 20 

7月 17日： 35, 42, 45，70, 72, 75, 60, 45, 40, 25, 25，25 

a . 对每天的12个数据，确定每个小时的季节指数。 

b . 根据 （ a ) 中的季节指数，可以得到消除了季节影响后的数据。由此而建立的趋势方程为 
r , = 32. 983+0. 392 2 f 。 仅仅考虑趋势成分，预测7月18日中12个小时的数据。 

c . 利用 （ a ) 中的季节指数调整 ( b ) 中的趋势预测值。 


26. 电力的消粍量是以千瓦每小时来测量的。某地公用事业公司有一个电力供应中断程序，需要 
商业用户的参与，如果用户参与该程序，则电力收费将会优惠，但是参与用户在该公司要求 
他们削减用电量时亦必须答应这一要求。 Timko 公司在星期四上午12点削减用电量。为了评 
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估所节约的用电量，公用事业公司必须估计 Timko 公司在正常耗电情况下的用电量。停电时 
间段是从中午到晚上8点。 Timko 公司前 72 个小时的用电量数据 如下： 


时间段 

星期一 

星期二 

星期三 

星期四 

12点_ 4点（上午） 


19 281 

31 209 

27 330 

4点一 8点（上午） 

—— 

33 195 

37 014 

32 715 

8点 一12 点（中午） 

— 

99 516 

119 968 

152 465 

12点一 4点（下午） 

124 299 

123 666 

156 033 


4点一 8点(下午） 

113 545 

111 717 

128 889 


8点一12点(午夜） 

41 300 

48 112 

73 923 



a . 24 小时时间段内是否有季节影响？对这6个 4 小时区间计算季节指数。 

b . 利用调整了季节指数的趋势来估计 Timko 公司在停止供电服务期间的正常用电量。 


18. 5 回归分析 

在第14, 15和16章关于回归分析的讨论中，我们阐述了如何利用一个或多个自变量来预测 
单个因变量的值。现在采用回归分析来作为预测工具，我们可以把想要预测的时间序列值作为因 
变量。因此，如果能够确定一系列相应的自变量（或预测）和变量的集合，则我们可以建立估计回 
归方程来预测时间序列。 

我们在 18.3 节中拟合自行车销量时间序列的线性趋势线时，所用的方法即是回归分析的一个 
特例。在那个例子中有两个变量，自行车销量和时间，呈线性相关。 # 在现实世界中，许多问题固 
有的复杂性需要考虑设置多个变量来预测目标变量，因此，多元回归分析的统计方法适用于这种 
情况。 

回顾建立多元回归方程的情形，我们需要自变量和因变量观测值的样本。在时间序列分析 
中， ri 期时间序列资料可以给每个变量提供 ri 个观察值。对包含 / c 个变量的函数，我们使用如下 
标记： 


Y t —— i 时期时间序列值 

X\ t - 1 时期变量1的值 

X2t - t 时期变量2的值 


Xkt - i 时期变量&的值 

下表给出了建立估计回归方程所需的 ri 期数据 资料： 


* 从纯技术的角度来看，自行车销量与时间并不 相关； 相反，如果把时间作为与自行车销量实际相关的一个变量，则它往 
往是未知的，或者很难测量或者测量费用太高。 
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时期 时间序列 （ K ) 自变量的数值 



正如你所设想的那样，预测模型中有几种可能的自变量选择。其中可能的一种是把时间作为 
自变量。在 18.3 节中即是这种情形，在那一节里，我们利用以时间作自变量的线性函数来预测时 
间序列的趋势。令；我们可以得到估计回归方程的 形式： 

Y I — bo + bit 

式中， h 是时间序列值 K 的估计值，6。和 h 是估计回归系数。在更为复杂的模型中，随着时间 
幂次的增加将会增加相对应的附属项目。例如，如果； X 3 t = t \ 则估计回归模型将会成为 
如下 形式： 


Y t = bo + bix \ t + b2X2t + b ^ x^t 
= 6o + b \ t bi f 2 + 63 

请注意，这个模型是用随着时间推移所产生的曲线特征来提供时间序列的预测。 

其他以回归为基础的预测模型包含有经济和人口统计学相混合的自变量。例如，在预测冰箱 

的销量时，我们可以选择以下自 变量： 

( - 1 时期的价格； 

m —— t - l 时期整个行业的 销量； 
x 3t —— 1-1 时期允许建造的建筑物 数量； 

^—— t 时期的人口预 测值； 

—— f 时期的广告支出预算。 

根据通常的多元回归方法，我们可以用包含5个自变量的估计回归方程来进行预测。 


Spyros Makridakis , 一个著名的预测专家所进行的研究表明：对于短期预测，简单的 
预测方法通常比更加复杂的预测方法更为有效。使用更为复杂和昂贵的预测方法不一定 
能保证更好的预测结果。 


回归方法是否提供了合适的预测结果，主要取决于我们所确定的自变量是否与时间序列密切 
相关，以及我们是否能够获得这些与时间序列密切相关的数据。通常说来，在建立估计回归方程 
的时候，我们会考虑很多可能的自变量集合。因此，回归分析的部分步骤应该是对自变量的选 
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择，争取所选择的自变量能够提供最好的预测模型。 

在本章的内容介绍部分，我们阐述了 因果预测模型 (causal forecasting models ) ，这种模型是用 
和被预测时间序列相关的其他时间序列，来解释它的行为特性的。回归分析是建立这种因果模型 
的最常用的工具。在这种模型里，相关的时间序列作为自变量，被预测的时间序列则作为因变量。 

在以回归为基础的另外一种类型的预测模型中，将该时间序列以前的所有数值作为自变量。 
例如，假设时间序列值用 K ， K ， …， h 来表示，如果因变量为 K ， 则我们可以建立一个估计 
回归方程，将 k 与最近的时间序列值 y t - i , y t - 2 , 等等联系起来。将这三个最近的时期作为自变 
量，估计回归方程形式 如下： 

Y t = bo + biYt ~] + biYi ~2 + 63 Ft -3 

将时间序列以前的数值作为自变量的回归模型被称为 自回归模型 (autoregressive models ) 0 

最后，另外一种以回归为基础的预测方法是将前面讨论过的各种自变量综合在一起。例如， 
我们可以选择时间变量的组合，包括一些经济的或人口统计.的变量，以及时间序列变量本身以前 
的数值。 


18.6 定性预测方法 


如果历史资料不可用，管理人员必须使用定性预测方法来进行预测。但是使用定性 
方法的成本由于所涉及的人员时间的投入可能会变得很高。 


在前面的章节中，我们讨论过几种类型的定量预测模型，其中大部分的技巧都需要研究历史 
资料，所以在历史资料不可用时这些模型也就无法应用。除此之外，即使那些历史资料可用，影 
响时间序列的环境如果发生显著的变化，这种使用历史资料来预测时间序列未来值的做法也就值 
得怀疑。例如，强制的汽油配售计划对根据历史资料来预测汽油销量预测的有效性提岀了质疑。 
定性预测给这些情形以及其他情形提供了备用的预测方法。 

德尔菲法 

德尔菲法 (Delphi method ) 是最常用的定性预测方法之一，最初是由兰德公司的一个研发小组 
开发出来的。它试图通过达成“小组意见的一致”来进行预测。在它通常的应用中，专家小组的 
成员被互相分开，并且彼此互不认识，这些成员需要回答一系列的咨询问题。第一轮问答的结果 
经过统计分析，被用于第二轮的提问调査，第二轮的提问包含了这个小组的答案信息和各种观 
点。因此，根据已经整理岀来的小组信息和观点，每个专家在第一轮的答案都可能需要重新考虑 
和修正。这个过程一直持续，直到小组协调人感觉到整个小组在某种程度上已经达成一致意见为 
止。德尔菲法的目的不是提供单一的答案作为结果，而是给出一个比较小的范围，在这个范围中 
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有专家小组的主流意见。 

专家判断法 


经验证明和理论分析都建议在进行判断预测时应该选择5到20名专家。但是，在涉 
及到指数增长的情形时，判断预测法是不适用的。 


定性预测通常以单个专家的判断或者一组专家的一致性意见为基础。例如，每年美林的专家 
汇集起来，预测下一年的道琼斯工业指数的平均水平和主要利率。在预测的过程中，专家们每人 
单独考虑他们认为将会影响股票市场和利率的 信息； 然后他们将结论结果总结成预测。在这些过 
程中，没有使用正式的模型，也不存在两个专家得出同一信息的情况。 

当历史条件不适用于将来时，我们通常推荐使用专家判断预测方法。虽然在预测过程中没有 
使用正式的定量模型，但专家判断法在很多情形下所提供的预测都是相当精确的。 


远景规划法 

远景规划法 (scenario writing ) 作为一种定性预测方法，包含根据一系列既定假设来建立一个概 
念性的远景规划。不同系列的假设导致不同的远景规划。决策者的工作就是决定每一个远景规划 
的相似性，然后据此作出决策。 


直观预测法 

主观或直观的定性预 测方法根据的是人类处理不同信息的思维能力，而在大多数情况下，它 
是难以量化的。这些方法通常应用于团队工作，在团队中委员会或者工作小组通过“头脑风暴” 
之类的会议来寻求新的方法或者解决复杂问题。在这些讨论会中，每个人不像通常在小组中那样 
受到压力和批评的限制，因为他们阐述任何想法或者观点时不需要考虑它是否恰当，甚至更重要 
的是，不需要害怕遭到批评。 



本章我们介绍了时间序列分析和预测的基本方法。首先，我们阐述了怎样解释时间序列的行 
为特性，将时间序列看成是包含四种成分 •. 趋势、循环、季节和不规则成分，这样有助于加深我 
们对它的理解。将这些成分区分开来，并测量它们各自的明显影响，这样我们就能够预测时间序 
列的未来数值。 

我们讨论了在没有显著的趋势、季节或循环成分影响时，如何用平滑法来预测时间序列。移 
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动平均法包括计算历史数据的平均值，然后将这个平均值作为下一时期的预测。在指数平滑法 
中，我们用时间序列历史数据的加权平均值来计算预测值。 

对于只有长期趋势的时间序列，我们阐述了怎样利用回归分析来做趋势推测。对于趋势和季 
节影响都很显著的时间序列，我们讨论了怎样将这两个因素的影响分开以取得更好的预测结果。 
最后，我们说明了回归分析可以作为建立因果预测模型的方法。因果预测模型表明了时间序列值 
(因变量）与其他自变量的关系，利用这些自变量我们可以解释时间序列的行为特性。 

当预测所需要的历史数据仅有部分可用或完全不可用时，我们讨论了使用定性预测方法。当 
时间序列的历史轨迹不会继续延伸到将来时，使用这些定性预测方法是最为合适的。 


水语辩义 


时间 序列： 时间序列是一个变量在连续时点或持续时期上的观测值的集合。 

« 

预测： 对一个时间序列未来值的推测和判断。 

趋势： 在时间序列的几个时期内观测值的长期移动或者运动。 

循环 成分： 围绕着趋势线上下波动时间超过一年的轨迹点可以被称为时间序列的循环成分。 

季节 成分： 在一年或一年之内显示周期性运动的时间序列模型成分。 

不规则 成分： 时间序列的成分，被用来解释在剔除了趋势、循环和季节成分影响以后的时间序列 

实际变动现象。 

移动平 均法： 一种预测时间序列的方法，它通过求每一个连续数列值的平均值而得到预测结果。 
均方 误差： 测量预测模型预测精度的方法。它是预测值和时间序列实际值之差的平方和的平均值。 
加权移动平 均法： 预测时间序列的一种方法，计算历史数据的加权平均值。权数的总和必须为1。 
指数平 滑法： 一种预测方法，利用历史时间序列值的加权平均值来得到可以用做预测的平滑的时 

间序列值。 ’ 

平滑 常数： 指数平滑模型的参数，即在计算预测值时，最近时间序列的给定权值。 

时间序列乘法 模型： 将时间序列的独立成分乘在一起来确定时间序列的预测值的模型。如果假设 

中有趋势、循环、季节和不规则四种成分，则模型为 c ( x /,;如 
果不考虑循环成分，则模型为 Y t = LxS t xI lo 

消除季节影响的时间 序列： 用时间序列的每一个原始观测值除以相对应的季节指数后所得到的时 

间序列。 

因果预测 模型： 一种说明时间序列与其他相关联变量的关系的预测方法，那些变量被认为可以解 

释或者产生时间序列的行为特性。 

自回归 模型： 一种时间序列模型，其回归关系仅仅依赖于历史时间序列值。用这种模型可以预测 
、 未来的时间序列值。 ； 

德尔 菲法： 一种定性预测模型，它通过小组意见的一致性来进行预测。 

远景规 划法： 远景规划法作为一种定性预测方法，包含根据一系列既定假设来建立一个概念性的 

远景规划。 
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重要公 



移动平均值 


指数平滑模型 

线性趋势方程 


移动平均值= 


E (最近〃个数值) 
n 


F l + i = aYt + ( \ - a) Ft 


T t = bo + b\t 

带趋势、季节、不规则成分的时间序列乘法模型 

Y t =T t x S t x L 

带趋势、循环、季节和不规则成分的时间序列乘法模型 

Y.= T t x C t x S t x h 


( 18 . 1 ) 


( 18 . 2 ) 


( 18 . 5 ) 


( 18 . 9 ) 


( 18 . 10 ) 


计免稼 


27. 移动平均值经常用于确定股价波动。下面是反斗城游戏公司 ToysRUs 股票在1997年9月22 
日一12月8日的每周收盘价 （Prudential Securities ， Inc .) : 


周 


价格(美元） 


周 



价格(美元) 

9 月 

22 

曰 

34% 

11 

月 

3 

曰 

33% 

9 月 

29 

曰 

35% 

11 

月 

10 

曰 

35% 

10 月 

6 

曰 

34% 

11 

月 

17 

曰 

34 K 

10月 

13 

曰 

33% 

11 

月 

24 

曰 

34^ 

10 月 

20 

曰 

32% 

12 

月 

1 

曰 

33 K 

10 月 

27 

曰 

34 

12 

月 

8 

0 

32% 


a . 计算这个时间序列3个月的移动平均值。并预测1997年12月15日的收盘价。 

b . 计算这个时间序列3个月的加权移动平均值。最近的时期权值为 0.4, 其次也为0.4，第三 
个时期的权值为 0.2, 预测1997年12月15日的收盘价。 

c . 对这个时间序列应用指数平滑法，平滑常数 a =0.35, 预测1997年12月15曰的收盘价。 
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d . 以上三种方法你倾向于使用哪一种，为什么？ 

28. 美国联邦选举委员会保存有关于选举的一些 数据： 到达选举年龄的人口，登记选举的人口 
数，美国联邦选举集会人口数。下表显示的是从1972年到1996年美国联邦选举集会人口数 
占到达选举年龄人口数的百分比 （ 77 i € Wall Street Journal Almanac , 1998) 。 


年 

选举集会人数(％) 

年 

选举集会人数(％) 

年 

选举集会人数(％) 

1972 

55 

1982 

40 

1990 

37 

1974 

38 

1984 

53 

1992 

55 

1976 

54 

1986 

36 

1994 

39 

1978 

37 

1988 

50 

1996 

49 


1980 53 

a . 用指数平滑法来预测这个时间序列，指数平滑常数 a =0.1 和 0.2, 哪一个指数平滑常数提 
供的预测结果更好？ 

b . 1998年参加选举集会的人口比例预测值是多少？ 


29.个人投资者所拥有的有价证券中股票所占的百分比取决于经济状况。1997年4月，一个典型 
的有价证券组 合为： 现金（19%)，股票 （30%), 股票基金 （37%), 债券 （8%), 债券基金 
(6% )(AAII Journal , June 1997) 0 下表是1995年到1997年9个季度中，一个典型的有价证券 
组合中股票所占的百 分比： 


季度 

1995 年 1 季度 
1995 年 2 季度 
1995 年 3 季度 
1995 年 4 季度 
1996 年 1 季度 
1996 年 2 季度 
1996 年 3 季度 
1996 年 4 季度 
1997 年 1 季度 


股票所占百分比 

29.8 
31.0 

29.9 
30. 1 
32.2 
31.5 
32.0 

31.9 
30.0 


a . 利用指数平滑法来预测这个时间序列，指数平滑常数 a =0.2, 0.3 和0.4。哪一个指数平 
滑常数所提供的预测结果更好？ 

b , 1997年第2季度有价证券中股票所占百分比的预测值是多少？ 

30. 某杂货连锁店注意观察某特定品牌的自动洗碗机清洁剂每周的需求量（单 位： 箱）。指数平滑 
常数 a =0.2, 用指数平滑法来预测第11周的需求量。 
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周 

需求置 



1 

22 



2 

18 



3 

23 



4 

21 



5 

17 



6 

24 



7 

20 



8 

19 



9 

18 



10 

21 


联合乳业有限公司给佛罗里达州 Dade 县的几个独立的杂货商店供应牛奶，联合乳业有限公司 
的管理人员想建立半加仑包装的牛奶的销量预测。过去 12 周的销售数量数据如下 所示： 

周 

销量 

周 

销置 

1 

2 750 

7 

3 300 

2 

3 100 

8 

3 100 

3 

3 250 

9 

2 950 

4 

2 800 

10 

3 000 

5 

2 900 

11 

3 200 

6 

3 050 

12 

3 150 

用指数平滑常数 ce =0.4 预测13周的牛奶需求量 

O 

第7花园大道销售音乐演出磁带， 

下表是过去18个月的销量数据。集团的管理人员需要对未 

来销量进行精确的预测。 




月 

销量 

月 

销置 

1 

293 

10 

433 

2 

283 

11 

470 

3 

322 

12 

481 

4 

355 

13 

549 

5 

346 

14 

544 

6 

379 

15 

601 

7 

381 

16 

587 

8 

431 

17 

644 

9 

424 

18 

660 


a . 利用指数平滑常数 a =0.3, 0.4, 0.5 进行预测。哪一个指数平滑常数提供的预测更为精 
确呢？ 
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b . 利用趋势推测法进行预测。 MSE 值是多少？ 

c . 你会向管理者推荐使用哪一种预测方法？为什么？ 

33. 衣阿华州 Davenport 的 Mayfair 杂货店由于密西西比河的水灾，被迫在7月和8月停业，该店 
计划确定它由于停业所遭受的销量损失。从1月到6月的销量资料如下 所示： 

月份 销置 (千美元） 

1 185. 72 

2 167. 84 

3 205.11 

4 210. 36 

5 255. 57 

6 261. 19 

a . 利用指数平滑常数 a =0.4,用指数平滑法预测7月和8月的销量。（提 示： 用7月份的预 
测值作为实际销量来预测8月份的销量）讨论对于将来不止一期的预测，指数平滑法的用 
处。 

b . 利用趋势推测法来预测7月和8月的销量。 

c . 以7月和8月所损失的销量为基础， Mayfair 所投保的保险公司提出了 一个赔偿方案 
240 000美元。这个方案合理吗？如果不合理，你认为合理的赔偿额应该是多少？ 

34. Canton 公司是一个雇用了将近100名员工的服务性公司。 Canton 公司的管理者很关注每月的 
现金流量，并计划预测每月的现金需求量。由于最近运营策略的变化，仅有过去7个月的历 
史资料是可用的，根据下面的历史资料，利用趋势推测法来预测今后两个月中每个月的现金 
需求量。 


月份 

1 

2 

3 

4 

5 

6 

7 

现金需求置(千美元） 

205 

212 

218 

224 

230 

240 

246 


35. 下表是从1980年到1994年的有线电视用户的数量 GzWeF ⑽ 6 0 以， 1994)。 


年 

数置 

1980 

16 000 

1981 

18 300 

1982 

21 000 

1983 

25 000 

1984 

30 000 

1985 

32 000 

1986 

37 500 

1987 

41 100 

1988 

44 000 



(续表) 
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年 

数置 

1989 

47 500 

1990 

50 000 

1991 

51 000 

1992 

53 000 

1993 

55 000 

1994 

57 000 


a . 对这个时间序列建立线性趋势方程。讨论这个方程说明了 15年来有线电视用户的数量发生 
了什么样的变化。 

b . 预测1995年和1996年的有线电视用户数量。 

36, Costello 音乐公司已经运营5年了。在这期间，电子琴的销量从第一年的12个单位增长到最 
近的76个单位 。 Fred Costello , 公司的拥有者，计划预测来年的电子琴销量。历史数据如下所 
示： 


年 

1 

2 

3 

4 

5 

销置 

12 

28 

34 

50 

76 


a . 画出这个时间序列的图像。图中是否出现线性趋势？ 

b . 建立这个时间序列的线性趋势方程。该公司每年实现的销量平均增长额是多少？ 

37. HudsonMarine 公司在过去 7 年中是 C&D 航海无线电设备的授权代理商。下表是每年无线电 
设备的销售 数量： 


年 

1 

2 

3 

4 

5 

6 

7 

销售数置 

35 

50 

75 

90 

105 

110 

130 


a . 画出这个时间序列的图像。图中是否出现线性趋势？ 

b . 建立这个时间序列的线性趋势方程。 

c . 利用 （ b ) 中所建立的线性趋势来预测第8年的销量。 

38. 美国电影协会 ( MPAA ) 收集了关于它的协会成员拍摄电影的成本资料，包括迪斯尼、派拉蒙、 
环球、华纳兄弟、米高梅、福克斯、索尼和特纳。下面的数据显示的是从1985年到1996年 
美国电影协会成员平均拍摄成本费用 （ Wall Street Journal Almanac , 1998) : 


年 

平均拍摄成本(千美元) 

1985 

16 779 

1986 

17 455 

1987 

20 051 

1988 

18 061 

1989 

23 454 

1990 

26 783 
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(续表) 

年 平均拍摄成本(千美元） 

1991 26 136 

1992 28 858 

1993 29 910 

1994 34 288 

1995 36 370 

1996 39 836 

a . 画出时间序列的散点图，并评论线性趋势的合理性。 

b . 建立这个时间序列的线性趋势方.程。 

c . 美国电影协会成员拍摄成本费用每年的平均增长额是多少？ 

d . 利用趋势方程来预测1997年和1998年的拍摄成本费用。 


39. 下表给出的是从1986年到1994年每年的移动电话用户数量（单 位： 千户 ）（ State of the Cellular 
Industry , 1994) 0 


年 

数置 

年 

数董 

1986 

682 

1990 

5 283 

1987 

1 231 

1991 

7 557 

1988 

2 069 

1992 

11 033 

1989 

3 509 

1993 

16 009 


画出这个时间序列的散点图，并评论线性趋势的合理性。对这个时间序列的函数轨迹，你认 
为什么样的函数形式最为适合？ 

40. 参考练习37中 Hudson Marine 的例子，假设7年来季度销量的历史数据 如下： 


年 

第 1 季度 

第 2 季度 

第 3 季度 

第 4 季度 

总计年销置 

1 

6 

15 

10 

4 

35 

2 

10 

18 

15 

7 

50 

3 

14 

26 

23 

12 

75 

4 

19 

28 

25 

18 

90 

5 

22 

34 

28 

21 

105 

6 

24 

36 

30 

20 

110 

7 

28 

40 

35 

27 

130 


a . 计算这个时间序列4个季度的移动平均值。并在同一个图上画出原来的时间序列图和移动 
平均值序列图。 

b . 计算4个季度的季节指数。 

c . 在什么时候 Hudson Marine 公司所经受的季节影响最大？这个季节影响是否合理？请解 
释。 
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41. 参练习36中 Costello 音乐公司的例子，季度销量数据 如下: 


年 

第1季度 

第2季度 

第3季度 

第4季度 

总计年销最 

1 

4 

2 

1 

5 

12 

2 

6 

4 

4 

14 

28 

3 

10 

3 

5 

16 

34 

4 

12 

9 

7 

22 

50 

5 

18 

10 

13 

35 

76 


a . 计算4个季度的季节指数。 

b , 在什么时候 Costello 音乐公司所经受的季节影响最大？这个季节影响是否合理？请解释。 

42. 参考练习40中 Hudson Marine 公司的数据。 

a . 消除数据的季节影响，并利用消除了季节影响的时间序列来确定趋势。 

b . 利用 （ a ) 中的结果，建立以趋势为基础的下一年季度预测。 

c . 为了说明季节影响，利用练习40中的季节指数调节 （ b ) 中的预测值。 

43. 参考练习41中 Costello 音乐公司的时间序列。 

a . 消除数据的季节影响，并利用消除了季节影响的时间序列来确定趋势。 

b . 利用 （ a ) 中的结果，建立以趋势为基础的下一年季度预测。 

c . 为了说明季节影响，利用练习41中的季节指数调节 （ b ) 中的预测值。 


案例研究1预测食品和饮料的销量 

Vintage 饭店位于 Captiva 岛上，该岛靠近佛罗里达州的 Fort Myers , 是一个人口稠密的社区。 
饭店由 Karen Payne 拥有并经营，已经持续了 3年。在这期间 ， Karen — 直在寻求以建立精于海鲜 
的高档正餐的饭店声誉。 Karen 和她的员工的努力是成功的，她的饭店已经成为岛上最好的且发 
展最快的饭店。 

Karen 已经作出了关于饭店未来发展的计划，她需要建立一个系统以提前一年预测食品和饮 
料每月的销量。 Karen 拥有3年经营中所有的食品和饮料的销售数据，数据如下页所示。 

管理报告 

对 Vintage 饭店的销量数据进行分析。请为 Karen 准备一份包括你的发现、预测和建议的总结 
报告。其中 包括： 

1. 时间序列的图形。 

2. 数据的季节分析。计算出每个月的季节指数，并评论每月季节销量影响高低。季节指数是 
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月份 

第一年 

第二年 

第三年 

1月 

242 

263 

282 

2月 

235 

238 

255 

3月 

232 

247 

265 

4月 

178 

193 

205 

5月 

184 

193 

210 

6月 

140 

149 

160 

7月 

145 

157 

166 

8月 

152 

161 

174 

9月 

110 

122 

126 

10月 

130 

130 

148 

11月 

152 

167 

173 

12月 

206 

230 

235 


否有直观上的意义？并对它进行讨论。 

3. 预测第四年从1月到12月的销量。 

4. 提出建议，说明你的系统在面对新的销售数据时需要在什么时候进行更新。 

5. 在你的报告附录中，给出你所分析的详细计算。 

假设第四年的1月销量为295 000美元，则你的预测误差是什么？如果这个误差比较大， 
Karen 或许会对你的预测值和实际值之间的差异表示疑惑。你怎样才能消除她关于预测方法的怀 
疑？ 


案例研究2预测销量的损失 

Carlson 百货商店在2000年8月31日台风袭击时，遭受了巨大损失。商店关闭了四个月 
(2000 年9月一2000年12月），现在， Carlson 和它的保险公司正在就停业期间所遭受的销售额损 
失而陷入争执。必须解决两个关键性的 问题： （1) 如果没有被台风袭击， Carlson 将会有多少销售 
额； （2) Carls 0 n 是否会从台风过后明显增加的营业中，获得额外的销售额作为补偿。该县得到了 
超过80亿美元的联邦救灾补偿和保险金，导致百货商店销售额的增加和其他无数商业活动的繁 
荣。 

表 18. 13给出了 Carlson 在遭受台风袭击之前48个月的销售额。表 18. 14给出了该县所有的 
杂货商店在遭受台风袭击之前48个月的总销售额，同时也给出了 Carlson 商店停业期间的总销售 
额。 Carlson 的管理者已经要求你分析这些数据，并预测 Carlson 商店在2000年9月 一12 月停业期 
间所损失的销售额。他们同时要求你确定在同期是否存在由于台风而产生的额外销售额。如果存 
在的话， Carlson 除了得到正常销售额的补偿外，还将得到额外销售额作为补偿。 
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表 18.13 1996年9月一2000年8月 Carlson 商店的销售额 { 单位： 百万美元) 


月 

1996 年 

1997年 

1998 年 

1999 年 

2000 年 

1 


1.45 

2.31 

2.31 

2.56 

2 


1.80 

1.89 

1.99 

2.28 

3 


2. 03 

2. 02 

2. 42 

2.69 

4 


1.99 

2. 23 

2. 45 

2.48 

5 


2.32 

2. 39 

2. 57 

2.73 

6 


2.20 

2. 14 

2. 42 

2. 37 

7 


2 . 13 

2.27 

2. 40 

2, 31 

8 


2. 43 

2.21 

2. 50 

2.23 

9 

1.71 

1.90 

1. 89 

2.09 


10 

1.90 

2. 13 

2. 29 

2. 54 


11 

2.74 

2. 56 

2. 83 

2. 97 


12 

4.20 

4. 16 

4.04 

4. 35 



管理报告 

请为 Carlson 的管理者准备一份报告，总结你的发现、预测和建议。其中 包括： 

1. 假如没有台风袭击，请估计销售额。 

2. 假如没有台风袭击，请估计全县范围内所有的杂货商店的销售额。 

3. 估计 Carlson 商店在2000年9月一 12月停业期间所损失的销售额。 

除此之外，利用该县所有的杂货商店在2000年9月到12月之间的实际销售额和 （2) 中的估 


计，作出判断支持或者反对由于台风而产生的额外销售额。 

表 18. 14 该县所有的杂货商店在1996年9月一2000年12月间的总销售额(单 位： 百万美元) 


月 

1996 

1997 

1998 

1999 

2000 

1 


46.8 

46. 8 

43. 8 

48.0 

2 


48.0 

48,6 

45.6 

51.6 

3 


60.0 

59.4 

57.6 

57.6 

4 


57.6 

58.2 

53.4 

58.2 

5 


61.8 

60.6 

56.4 

60.0 

6 


58.2 

55.2 

52.8 

57.0 

7 


56.4 

51.0 

54.0 

57.6 

8 


63.0 

58.8 

60.6 

61. 8 

9 

55. 8 

57.6 

49.8 

47.4 

69.0 

10 

56.4 

53.4 

54.6 

54.6 

75.0 

11 

71.4 

71.4 

65.4 

67.8 

85.2 

12 

117.6 

114.0 

102.0 

100.2 

121.8 
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附录 18. 1用 Minitab 进行预测 

在本附录中，我们将介绍如何用 Minitab 来进行移动平均法、指数平滑法和趋势推测法预测。 


移动平均法 



CD 光盘数据 
Gasoline 


为了说明如何利用 Minitab 来进行移动平均法预测，我们将对表 18.1 和图 18.5 
中自行车的销量时间序列进行预测。12个星期的销量数据已经被输人工作表的第2 
列，以下的步骤可以产生第13周3个星期的移动平均值 预测： 


步骤 1. 选择 Stat 下拉 菜单； 

步骤2.选择 Time Series ； 

步骤 3. 选择 Moving Average ； 

步骤 4. 当出现移动平均值对话 框时: 
在 Variable 框中输人 C 2; 

在 MA length 框中输人3; 


选择 Generate forecasts ； 


在 Number of forecasts 中输人 1; 
在 Starting from origin 中输人 12; 

点击 OK 。 


第 13 周 3 个星期的移动平均预测值将在任务窗口中显示。均方误差 10. 22在 
Minitab 输出结果中被称为 MSD 。 我们还可以使用许多其他的输出项，包括与表 18.2 
相似的总结表，以及和图 18.6 相似的输出结果图形。 


指数平滑法 



CD 光盘数据 
Gasoline 


为了说明怎样使用 Minitab 来进行指数平滑预测，我们将利用表 18. 1和图 18.5 
中的汽油销量序列来预测第13周的销量。将12个星期的销量数据输人工作单中的第 
2列。用平滑常数 ct =0.2, 通过以下步骤可以预测第13周的 销量： 

步骤 1. 选择 Stat 下拉 菜单； 

步骤 2. 选择 Time Series ； 


步骤 3. 选择 Single Exp Smoothing ； 

步骤 4. 当岀现 Single Exponential Smoothing 对话框时: 


在 Variable 框中输人 C 2; 


对 Weight to Use in Smoothing 选择 Use 选项; 
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在 Use 框中输人 0.2; 

选择 Generate forecasts ； 

在 Number of forecasts 中输入 1; 

在 Starting from origin 中输人 12; 

选择 Options ； 

步骤 5. 当出现 Single Exponential Smoothing 对话框时： 

在 Use average of first 框中输人 1; 

点击 OK ; 

步骤 6. 当出现 Single Exponential Smoothing 对话框时： 

点击 OK 。 

第13周的指数预测值将在任务窗口中显示。均方误差在 Minitab 输出结果中被称 
为 MSDc /我 们还可以使用许多其他的输出项，包括与表 18. 3相似的总结表，以及和 
图 18. 7相似的输出结果图形。 


趋势推测法 



CD 光盘数据 
Bicycle 


为了说明怎样使用 Minitab 来进行趋势推测，我们将利用表 18.6 和图 18. 8中 
的自行车销量序列来预测第13周的销量。将年份输人工作单中的第1列，将销量 
数据输人工作单中的第2列。用趋势推测法，通过以下步骤可以预测第13周的销 
量： 


步骤 1 . 选择 Stat 下拉 菜单； 
步骤 2 . 选择 Time Series ; 
步骤 3. 选择 Trend Analysis ; 


步骤 4. 当出现 Trend Analysis 对话框时: 
在 Variable 框中输人 C 2; 


选择 Linear 作为模型类型； 

选择 Generate forecasts ； 

在 Number of forecasts 中输人 1; 
在 Starting from origin 中输入 10; 

点击 OK 。 


下一期的线性趋势方程和预测值显示在任务窗口中。 


* 由 Minkab 计算出来的 MSD 值与出现在表 18.4 中的 MSE 值不同。 Minitab 用17作为第1周的预测值，计算 MSD 用的是 
所有12周的资料。在 18.2 节中计算均方误差时，我们只用从第2周到12周的数据来计算 MSE 值，因为缺乏可以用于预 
测第1期的历史数据。 
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附录 18. 2用 Excel 进行预测 

在本附录中，我们将介绍如何用 Excel 来进行移动平均法、指数平滑法和趋势推测法预测。 

移动平均法 


为了说明如何利用 Excel 来进行移动平均法预测，我们将对表 18. 1和图 18.5 中汽油的销量 
时间序列进行预测。12个星期的销量数据已经被输入工作表 B 列的第2到13行，以下的步骤可 
以产生3个星期的移动平均值 预测： 

步骤 1 . 选择 Tools 下拉 菜单； 

步骤 2. 选择 Data Analysis ; 

步骤3 •从 Analysis Tools 列表中选择 Moving Average ; 

点击 OK ; 

步骤 4. 当出现移动平均值对话 框时： 

在 Input Range 框中输人 B 2： B 13； 

在 Interval 框中输入 3; 

在 Output Range 框中输入 C 2 ; 

点击 OK 。 

3 周的移动平均值将会出现在工作单的 B 列。如果在 Interval 框中输入不同的数值可以很轻 
松的计算出其他步长的预测。 

指数平滑法 



CD 光盘数据 
Gasoline 


为了说明怎样使用 Excel 来进行指数平滑预测，我们将再次利用表 18. 1和图 18.5 
中的汽油销量序列来进行预测。将12个星期的销量数据输入工作表 B 列的第2到13 
行。用平滑常数《=0.2,通过以下步骤可以进行 预测： 

步骤 1 . 选择 Tools 下拉菜单； 

步骤2 .选择 Data Analysis ; 


步骤3 .从 Analysis Tools 列表中选择 Exponential Smoothing ； 


点击 OK ; 


步骤 4. 当出现 Exponential Smoothing 对话框时: 
在 Input Range 框中输入 B 2： B 13; 

在 Damping factor 框中输入 0. 8; 

在 Output Range 框中输入 C 2; 

点击 OK 。 
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指数预测值将在工作单的 B 列中显示 o 请注意我们在 Damping factor 对话框中输入的 
是 1 - a ; 通过在 Damping factor 对话框中输入不同的 1 - a 数值，我们可以轻松地计 
算出其他平滑常数的预测值。 


趋势推测法 



CD 光盘数据 
Bicycle 


为了说明怎样使用 Excel 来进行趋势推测，我们将利用表 18. 6 和图 18.8 中的自 
行车销量序列来进行预测。在第1行以顺序标号，在工作表 A 列和 B 列中的第1行至 
第11行输入数据。用趋势推测法，通过以下步骤可以预测第11年的 销量： 

步骤 1. 在工作表中选择一个空单 元格； 

步骤 2. 选择 “ Insert ” 下拉 菜单； 

步骤 3. 选择 “ Function ” ； 


步骤 4. 当出现 Paste Function 对话框时： 

在 Function Category 框中选择 “ Statistical ” ; 
在 Function Name 框中选择 “ Forecast ” ； 

点击 “ OK ”； 


步骤 5. 当出现 Forecast dialog 对话框时： 

在 x 框中输入11; 

在 Knowny ’ s 框中输入 B 2: B 11 ; 
在 Knownx ’ s 框中输入 A 2: All ; 
点击 “ OK ”。 


第11年的预测值 32. 5将出现在第1步所选择的单元格中。 



非参数方法 


统计 实例： 西壳房地产经纪公司 
19.1 符号检验 
小样本情形 
大样本情形 
中位数假设检验•‘ 

19.2 维尔克科森符号秩检验 
19.3 曼-怀特尼-维尔克科森检验 
小样本情形 
大样本情形 

19.4 克鲁斯卡尔-沃利斯检验 
19.5 秩相关 

秩相关显著性检验 
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西壳房地产经纪公司 
辛辛那提，俄亥俄州 


西壳房地产经纪公司 （West Shell Realtors ) 成立 
于1958年，刚成立时只有一间办公室和三个销售 
人员。在1964年，公司开始走上长期扩张的发展 
道路，新的办事处每年都有增长。几年以后，现在 
的西壳公司已经是大辛辛那提地区最大的房地产经 
纪公司，在俄亥俄州西南部、印第安纳州东南部、 
肯塔基州北部设有办事处。 

统计分析可以帮助诸如西壳这样的房地产经纪 
公司对自己的销售业绩进行监控。西壳公司所有办 
事处和总公司每个月都编制业绩报表，汇报有关销 
售总额、已售单元数量、每个单元平均售价的统计 
总结数据，这些数据对办事处经理和总公司高层领 
导把握公司的经营过程和难点所在是至关重要的。 

除了对每月业绩进行总结外，西壳公司还利用 
统计来指导公司的发展计划和战略。西壳公司正在 
执行一项有计划的扩张战略，每当扩张计划需要公 
司成立新的销售办事处时，办事处的选址问题就会 
成为公司关心的焦点。房产的销售价格、资金的周 
转率、销量的预测都是在评价和选择办事处地点时 
需要考虑的重要数据。 

例如，西壳公司选择了两个郊区：克利福顿和 
罗斯莱尔，计划将这两个地区作为一个新的办事处 
的首选地点。在对这两个地区做比较时需要考虑很 
多不同的因素，包括房产的售价。西壳公司利用小 


* 作者衷心感谢西壳公司的 Rodney Fightmaster 提供这一 
统计实例。 



西壳房地产经纪公司利用统计手段对所销售的住宅数量进行 
分析，以确保其竞争力 0 © PhotoDisc ， Inc . 


样本条件下的非参数方法来确定这两个地区销售情 
况的差异之处。 

他们从克利福顿选取了 25笔销售业务作为样 
本，从罗斯莱尔选取了 18笔业务作为样本，然后 
选择曼-怀特尼-维尔克科森检验对销售价格差异 
进行统计检验。在 0.05 的显著性水平下，曼-怀 
特尼-维尔克科森检验并没有拒绝这两个地区销售 
价格基本相同这一零假设。因此，西壳公司在地点 
选取过程中可以集中考察房产销售价格以外的选择 
标准。 

在这一章中，我们将讨论诸如曼-怀特尼-维 
尔克科森检验之类的非参数检验是怎么应用的，同 
时，我们也将讨论怎样对这些检验作出正确的解 
释。 


到目前为止，本书所讨论过的统计方法都是通常所知 的参数方法。 在这一章中，我们将介绍 
几 种非参数方法 (nonparametric methods ) D 如果某些情形运用做前面章节中所介绍的参数方法不适 
用的话，则可用本章中的非参数方法。通常说来，非参数方法对数据测量的水平并没有很严格的 
假设，对样本数据所服从的概率分布形式假设也比较少。 
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选择应用参数方法还是非参数方法的一个考虑因素是数据生成的测量尺度。所有的数据都是 
由以下四种生成尺度之一生 成的： 名义、序数、区间和比例。因此，所有的统计分析都是根据这 
四种类型的 数据： 名义、序数、区间和比例进行的。 

下面，让我们对这四种类型的测量尺度进行定义，并给出示例。 

1. 名义尺度。 如果数据是简单的符号或者类别，而且这个数据是用于定义某个元素的属性， 
则其测量尺度是名义尺度，名义数据可以是数值，也可以是非数值的。 

举例： 一只股票所在的上市交易所（纽约证券交易所、纳斯达克或者美国证券交易所) 
是非数值的名义数据。每个公民的社会保险号码是一个数值的名义数据。 

2. 序数尺度。 如果数据用于对观测值进行排秩或者排序，则这种测量尺度是序数尺度，序数 
数据既可以是数值的，也可以是非数值的。 


在第1章中，我们指出了名义尺度和序数尺度给出的是定性的数据，区间尺度和比 
例尺度给出的是定量数据。 

举例： 在对某个个体项目大小进行测量时，可以将其分为小 、中、 大三种类型，这就 
是非数值的序数数据。个体级别秩为1, 2, 3……这些就是数值序数数据。 

3. 区间尺度。 如果一组数据具有序数数据的特征，并且数据观测区间可以用固定的测量尺度 
单位来表示，则这种测量尺度是区间尺度。区间数据必须是数值的。 

举例： 温度的测量就是区间数据。假设某个地点是 70°， 另外一个地点是 40°， 我们可 
以根据温度对这两个地点进行 排序； 第一个地点比第二个地点更加温暖。测量尺度的固定 
单位——度，使得我们可以确定第二个地点比第一个地点暖和 30 °o 

4. 比例尺度。 如果数据具备区间数据的特征，而且测量尺度的比例是有意义的，则测量尺度 
是比例尺度。比例数据必须是数值的。 

举例： 距离、高度、重量以及时间这样的变量都是以比例尺度的形式测量的。温度测 

量不是以比例尺度的形式进行，那是因为不存在固有的零点。例如，水的冰点是32 ° F ， 即 
0 T 。 温度数据的比值是没有任何意义的。例如，认为 8( T 的温度比40。的温度暖和两倍， 
这种说法是没有意义的。 


如果数据测量尺度是名义或者序数尺度，对方差、均值和标准差的计算都是没有意 
义的。因此，对于这种类型的数据，前面所讨论过的很多方法都是无法应用的。 

大部分参数统计方法都需要利用区间尺度或者比例尺度的数据。在这些计量水平上进行数学 
运算是比较有意义的，而且均值、方差和标准差等等都是可以计算、解释并在分析中得到应用 
的。但是对名义或者序数尺度的数据计算，均值、方差和标准差都是不适用的。因此，通常情况 
下不能使用参数方法。非参数方法通常是对这些数据进行分析的惟一的方法，也是由此得出统计 
结论的惟一方法。 
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第8、9、10章所讨论过的以小样本和 i 分布为基础的统计方法都是根据数据来自正 
态总体这一假设。如果这个假设不适用，则应该使用非参数方法。 


在确定是使用参数方法还是非参数方法的时候，另外一种考虑是关于数据来源的总体样本假 
设。举个例子，在第10章中，我们给出了一个对两个总体均值之间差异的假设进行检验的参数方 
法。在小样本情形中，如果我们能够假设这两个总体是方差相同的正态分布，则我们可以使用 t 
分布进行检验。如果总体方差相同这一假设并不适用，则即使数据是区间尺度的或者比例尺度 
的，我们也不能利用以 t 分布为基础的参数方法进行检验。但是，由于非参数方法对总体概率分 
布的假设没有要求，因此可以用它对两个总体间的差异进行检验。正因为非参数方法对概率分布 
假设没有要求，因此常常被称为自 由分布检验 ( distribution-free methods ) 。 

总的说来，如果一种统计方法被归于非参数方法，则它至少满足以下条件中的 一种： 

1. 这种方法可以用于名义数据。 

2. 这种方法可以用于序数数据。 

3. 如果无法对总体概率分布作出假设时，这种方法可以用于区间或者比例数据。 

如果数据测量水平是区间尺度或者比例尺度，并且总体概率分布的必要假设是合适的，则参 
数方法所提供的统计过程更为有效，区分识别能力也更强。在许多情形中，参数方法和非参数方 
法都是适用的，非参数方法和参数方法一样有效。对于某些情形，如果数据尺度类型为名义或者 
序数尺度，或者参数方法所必需的假设不成立，则我们只能利用非参数方法。由于非参数方法所 
需要的数据测量尺度要求并不是很严格，对总体分布的假设也比较宽松，因此我们认为通常情况 
下非参数方法比参数方法应用更为广泛。符号检验、维尔克科森符号秩检验、曼-怀特尼-维尔 
克科森检验、克鲁斯卡尔-沃利斯检验以及斯皮尔曼秩相关就是本章中所要阐述的非参数方法。 


19.1 符号检验 

在通常的市场调査研究中， 符号检验 (sign test ) 的应用涉及到由 n 名潜在顾客组成的样本的应 
用，由这〃名顾客根据自己的偏好对某类产品的两种品牌进行选择，比如咖啡、软饮料或者清洁 
剂等等。由于顾客只需要指出或者标出所偏好的品牌，所以这〃个选择是名义尺度的数据。利用 
这些数据，我们可以确定人们是否对所比较的两种品牌存在偏好上的差异。正如我们所看到的， 
符号检验是回答此类问题的非参数统计方法。 

小样本情形 

符号检验的小样本情形指的是 n 矣20。让我们对太阳海岸农场进行一项研究，以说明小样本 

* 见 W. J. Conover, Practical Nonparametric Statistics t 3rd ed. (John Wiley & Sons, 1998) 0 
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情形符号检验的应用。太阳海岸农场生产一种 Citrus Valley 品牌的桔子汁。它的一个竞争对手已 
经开始生产一种新的梧子汁品牌 ： Tropical Orange 。 在对这两种品牌进行消费者偏好的研究中，12 
名消费者所面对的产品都没有标出品牌，而且每一名消费者第一次品尝的产品品牌都是随机选择 
的。在消费者对这两种品牌进行品尝后，研究者要求消费者标明自己所偏好的产品。这项研究的 
目的在于确定消费者是否更加倾向于使用其中某一种品牌的产品。令 p 表示偏好 Citrus Valley 的 
消费者所占总体的比例，我们计划检验以下的 假设： 


Ho : p =0. 50 
H a ： p 尹 0.50 

如果我们不能拒绝//。，则对于这两种品牌的产品，没有证据表明存在消费者偏好的差异。但是， 
如果/ / o 被拒绝，我们就可以得出 结论： 这两种品牌存在消费者偏好差异。在这种情形下，由多 
数消费者所挑选出来的品牌可以被认为是消费者更加偏好的品牌。 

在接下来的讨论中，我们将阐述如何使用小样本情形的符号检验来对关于消费者偏好的假设 
进行检验并得出结论。为了记录参加研究的12名消费者的偏好数据，我们作出如下 规定： 如果消 
费者标明所偏好的品牌是 Citrus Valley , 则我们使用加号，如果消费者偏好的品牌是 Tropical Or ¬ 
ange , 则我们使用减号。由于数据是以加、减符号的形式表示，所以这种非参数检验被称为符号 
检验。 



如果样本容量小于或等于20,在附录 B 的表5中可以查到具体的二项概率。 



表 19. 1 n = 12, /> = 0. 50 
的二项概率分布 


加号的个数 

概率 

0 

0. 000 2 

1 

0. 002 9 

2 

0.016 1 

3 

0. 053 7 

4 

0. 120 8 

5 

0. 193 4 

6 

0. 225 6 

7 

0. 193 4 

8 

0. 120 8 

9 

0. 053 7 

10 

0.016 1 

11 

0. 002 9 

12 

0. 000 2 


在假设_丑。为真的情况下（即 p =0.50), 加号的个数服从 =0.50 
的二项概率分布。当样本容量 n = 时，附录 B 的表5给出了如表 
19. 1所示的 p =0.50 的二项分布的概率值。图 19. 1是这个二项概率 
分布的图形表示。在讯假设成立的条件下，它表示了加号个数的概 
率，因此它也是假设检验的合适的抽样分布。我们利用这个抽样分布 
来确定一个拒绝讯的 规则； 所使用的方法和我们在第9章中用于建 
立拒绝假设检验的规则的方法是相似的。举个例子，利用 a =0.05 显 
著性水平，我们可以将图 19.1 中分布两端约 0.025 的部分定义为拒 
绝区间或者拒绝域。从这个分布的低端开始，我们发现加号个数为 
0，1 或者2的概率为 0.000 2+0.002 9 + 0.016 1 =0.019 2。请注 
意，我们在两个加号处停住，是因为如果加上3个加号的概率将导致 
这个低端区域等于 0. 019 2 + 0. 053 7 =0.072 9, 这个数值将明显超过 
了所要求的 0.025 区域。在这个分布的高端，我们发现相对应于10、 
11、12个加号的概率也是 0.019 2。因此，我们离 a =0. 05最为靠近 
而又没有超出的概率即为0.019 2+0.019 2 = 0.038 4。在这种情况 
下，我们可以釆用如下的拒绝 法则： 

如果加号个数少于3个或者多于9个，则我们可以拒绝// 0 。 
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图 19.1 不能显示阴影区域，因为抽样分布是间断的，拒绝域即0, 1, 2, 10, 11, 
12处的点。 



“+”号的个数 

图 19. 1 n = \2, p =0.50 的加号二项概率分布示意图 


表 19. 2显示的是阳光海岸农场例子中反映消费者偏好的数据。由于仅仅观测到两个加号，所以我 
们可以拒绝零假设。这项研究证明了消费者对这两种品牌的.桔子汁的偏好是存在差异的。我们有必要 
向阳光海岸农场提出建议，因为研究显示消费者更加倾向于消费其竞争对手的 Tropical Orange 品牌。 

表 19. 2 阳光海岸农场桔子汁风味检验中的消费者倾向性数据 


消费者 

品牌倾向 

记录数据 

1 

Tropical Orange 

一 

2 

Tropical Orange 

一 

3 

Citrus Valley 

+ 

4 

Tropical Orange 

一 

5 

Tropical Orange 

一 

6 

Tropical Orange 

— 

7 

Tropical Orange 

— 

8 

Tropical Orange 

一 

9 

Citrus Valley 

+ 

10 

Tropical Orange 

一 

11 

Tropical Orange 

_ 

12 

Tropical Orange 

一 


对于非参数检验，如果 p _ 值<«我们也可以拒绝//。。在有两个加号的情况下，这个双边检 
验的 P - 值为 2(0. 016 1 +0. 0029+0. 0002)=0. 0384。对于单边检验， p - 值是单边检验抽样分 
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布概率的总和。 

在阳光农场示例中，进人调查中的所有12个消费者需要表明自己对产品的偏好。但是在很多 
情形下，样本中的一个或者多个消费者有可能无法明确表明对某一种品牌的偏好。在这种情况下， 
应该将这些没有明确喜好的消费者个体从总体中删除，分析过程可以在一个较小的样本中进行。 

附录 B 表5所示的二项概率分布可以用于构造样本容量在 n = 20 以内的任何符号检验的决策 
规则。对于零假设 p =0.50 和样本容量〃，我们可以建立对应于任何显著性水平的决策规则。而 
且，如果我们仅仅考虑二项概率分布的低端或者高端，则我们可以建立单边检验的拒绝规则。附 
录 B 没有给出样本容量大于20的二项概率分布表，在这种情形下，我们可以使用二项概率分布 
的大样本正态近似情形来确定适当的符号检验拒绝规则。 

大样本情形 


大样本符号检验和第9章中所讨论的 p =0. 5总体比例的检验是相同的。 

如果利用零假设丑 D: p =0,50 和样本容量 ai >20, 则我们可以利用正态概率分布来近似加号 


个数的抽样分布。 

如果不存在倾向牲偏好， 

加号个数抽祥分布的正态近似犢形 



均值： /jl = 0. 50 n 

(19.1) 


标准差： VO . 25 n 

(19. 2) 

分布形式：当 ？ i >20 时， 

近似于正态分布。 



让我们考虑将符号检验应用于政治民意测验。近期的总统选举进行了一项民意测验，调查询 
问了 200名已登记的选民，调查的内容是关于民主党和共和党的总体对外政策优劣的问题。调查 
结果 表明： 有72人认为民主党候选人更好，有103人认为共和党候选人更好，25人认为两党并 
无多大差别。这项民意测验是否表明了公众对民主党和共和党的对外政策存在显著的倾向性差 
异？ 


通过分析提炼出的问题要相应地予以解决。 

利用符号检验，我们可以看到有 m = 200-25 = 175人明确表明了他们对总体外交政策的倾向 
性态度。利用公式 （19. 1) 和 （19. 2)，我们发现加号个数的抽样分布具有如下的 特征： 

/x = 0. 50几= 0. 50(175) =87.5 


(j — yjO . 25 n = VO . 25(175) = 6. 6 

除此之外，当 ； i = 175 时我们可以假设抽样分布近似于正态分布 D 这个分布如图 19. 2 所示。由于 
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87.5 


加号个数 

图 19. 2 ^ = 175的符号检验中加号个数的概率分布 


这个分布近似于正态分布，我们可以利用标准正态分布概率分布面积表来构造这个检验的拒绝法 
则。在 a =0.05 显著性水平下，这个双边检验的拒绝法则 如下： 

如果 z <-1.96 或者 z >+1.96, 则拒绝执。 

将民主党候选人对外政策得到较高评价的次数作为加号的个数 U = 72)，我们可以得到如下 
的检验统 计量： 


%- 72 - 87. 5 

= <7 = 6 . 6 一 =_ 2 , 35 


如果分析师用对共和党候选人有较高评价的次数作为加号个数， Z = 2. 35也会使我 
们导出同样的结论。 


因为 z = -2.35 小于 -1.96, 在 a = 0.05 显著性水平下，可以拒绝两党候选人外交政策没有差异 
的假设。在2=-2.35情况下，我们可以用标准正态分布来表示 p - 值为 2(0.5000-0.4906) 
= 0. 018 8。这项研究表明公众对候选人的外交政策评价是有差异的。 


中位数假设检验 

在第9章中，我们描述了怎样利用假设检验来推断总体均值。现在，我们将阐述怎样用符号 
检验来对总体中位数进行假设检验。回顾前面的内容，中位数是将总体分成两部分，其中50%位 
于中位数之上，50%位于中位数之下。我们可以利用符号检验，当样本中的数据大于所假设的中 
位数时，我们用加号来 表示； 当样本中的数据小于所假设的中位数时，我们用减号来表示。如果 
数据恰好等于中位数，则我们应该将它从样本中删除。符号检验的计算过程与前面所述的计算过 
程是完全一样的。 

举个例子，关于密苏里州路易斯市的新建住宅楼的价格中位数的假设检验 如下： 
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Ho ： 中位数= 130 000美元 
H “ 中位数#130 000美元 

某个样本包括62所房子，34所房子价格在130 000美元之上，26所价格在130 000美元之 
下，还有两所房子价格正好是130 000美元。 

对于 n = 60 所，价格不为130000美元的房子，利用公式 （19. 1) 和 （19. 2) ，我们可以得到 

〆 = 0. 50 71 = 0. 50(60) = 30 
cr = VO . 25 n = VO . 25(60) = 3. 87 

由于加号个数 ； c = 34, 检验统计量为 


%- il 34 - 30 
a - = 3.87 


= 1. 03 


利用双边检验和 a =0.05 显著性水平，如果 z 小于 -1.96 或者 z 大于+ 1.96,则我们可以拒绝 
H Qo 检验统计量 z = 1.03, 因此我们不能拒绝//。。-值为 2(0.500 0-0.348 5) =0.303。根据 
这些数据，我们无法拒绝路易斯新建住宅销售价格的中位数为130 000美元的零假设。 



我们在计算中利用加号的个数来确定是 可以利用减号的个数进行计算，所得结果相 

否拒绝值为 0.5 的零假设。同样，我们也 同。 



方法 

1. 下表所列的数据是关于10个消费者个体对于某产品两种品牌的风味检验 结果: 


r - 

L . 墙弗奎 

自测题 

品牌 A 比之品牌 B 

消费者 

品牌 A 比之品牌 B 

1 

+ 

6 

+ 

2 

+ 

7 

一 

3 

+ 

8 

+ 

4 

一 

9 

— 

5 

+ 

10 

+ 


在 a = 0. 05的显著性水平下，对两种品牌的消费者偏好差异进行显著性检验。加号表 
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示消费者倾向于品牌 A 。 


2. 所做的假设检验如下 所示: 



自测题 


Ho ： 中位数矣150 
H a ： 中位数>150 


样本容量为30，数值在150以上的有22例，正好等于150的有3例，小于150的有 
5例，利用 a = 01的显著性水平进行假设检验。 


应用 

3. 股票分拆是否有利于股东？ SNL 证券公司对银行业 1 S 个月来的股票分拆进行了一项研究，发 
现股票分拆会导致个人持股者的股票价值上升。假设某个样本由20个最近的股票分拆案例组 
成，其中，有14个案例导致股票价值上升，4个案例导致股票价值下跌，2个没有发生任何变 
化。利用符号检验确定股票分拆是否一直对银行股票持有者有利。 

a . 零假设和备择假设是什么？ 

b . 在 a = 0. 05的显著性水平下，给出拒绝法则。 

c . 能得出什么结论？ 

4. 一项民意测验调查了 1 253名成年人，就国家的经济状况和他们的孩子的未来进行了 
gm > 访谈。其中一个问题是这 样的： “你认为你的孩子能够过上比你现在更好的生活，还 

自测题 - 

是更差的生活，或者就跟你现在所过的生活一样。”回 答是： 34%的人认为会更好， 
29%的人认为会更差，33%的人认为会一样，4%的人不是很确定。利用符号检验和 
a = 0. 05的显著性水平，确定相信他们的孩子会过上比他们自己更好的生活的成年人 
数目比认为孩子生活会更差的成年人数目要多，你的结论是什么？ 

5. 1996— 1997年的尼尔森媒介调查确证£7?和是两个收视率最高的网络电视节目。假设 
在一项本地电视收视倾向调查中，要求410个被调查者说出他们最喜欢电视节目，其中185个 
被调查者选择了现，165个被调查者选择了 Seinfeld ， 60个选择了其他电视节目。利用 a = 
0.05 的显著性水平对£7?和 Sein / eW 是否拥有同样的收视率进行检验，你能得出什么结论？ 

6. 在1996年，个人电脑的消费市场由惠普和康柏领导 July 21, 1997)。在一个由 
500名电脑采购者组成的样本中，202名釆购者购买的是惠普电脑，158名采购者购买的是康柏 
电脑，140名购买的是其他品牌的电脑，比如 IBM 、 苹果和 NEC 。 在 a =0.05 的显著性水平 
下，对惠普和康柏是否占有同样的市场进行检验，你的结论是什么？ 

7. Barron’s 杂志的订阅者收入中位数为 131 000美元 （ www . barronsmag . com , July 28 ， 2000) o 假设 
在一个由 300 名《华尔街日报》订阅者所组成的样本中，165名订阅者的收入中位数在131000 
美元之上，135名订阅者的收入中位数在131 000美元之下。你能否得出 结论： 这两种杂志的 
订阅者群体收入中位数之间存在差异？ p - 值为多少？在 a = 0. 05的显著性水平下，你的结论 



是什么？ 
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8. 在一个由150场大学篮球赛所组成的样本中，主队获胜98场比赛，利用 a =0. 05的显著性水 
平，对比赛数据进行检验，确定主队在大学篮球比赛中是否占有优势，你能得出什么结论？ 

9. 去年某个城市每个快餐店中的兼职雇员人数中位数为15,市政府的官员认为兼职雇员的数目可 
能会增长。由9个快餐店所组成的样本显示，7个快餐店有多于15个的兼职雇员在其中工作， 
有一个快餐店刚好有15个兼职雇员工作，还有一个快餐店兼职雇员人数少于15个。在 a = 
0.05 的显著性水平下，检测兼职雇员人数的中位数是否有所增加。 

10. 根据一项全国调查，成年人所希望的能够使他们的梦想成真的年收入中位数为152000美元。 
假设某个样本由俄亥俄州225个被调查者组成，122名被调查者认为可以使他们梦想成真的年 
收入中位数在152000美元之下，103名被调查者认为必须在152 000美元之上。在 a = 0.05 
的显著性水平下，检验零 假设： 能够使俄亥俄州人们的梦想成真的年收入中位数为152000美 
元，你能得出什么结论？ 


11. 美国劳工统计局的报告表明1996年在行政和管理岗位的妇女每周收入的中位数为585 



美元，一个由芝加哥地区行政和管理岗位的妇女所组成的样本提供了如下的数据。利 
用这个样本检验假设讯：中位数<585，札：中位数>585,这个中位数指的是芝加哥 
行政和管理岗位妇女的每周收入。利用 a =0. 05的显著性水平，你能得出什么结论？ 


Chicago 


622 

516 

631 

498 

715 

571 

494 

525 

664 

721 

657 

692 

551 

580 

649 

706 

597 

518 

725 

635 

548 

604 

671 

607 

487 

583 

702 

622 

714 

693 

600 

721 

662 

633 

681 

624 

551 

632 

544 

485 

655 

721 

669 

677 

609 

656 

562 

721 

489 

582 


19.2 维尔克科森符号秩检验 

维尔克科森符号秩检验 ( Wilcoxon signed-rank test ) 是第10章中所阐述的匹配样本参数检验的 
非参数替代方法。在匹配样本情况下，每个试验单元将会产生两个成对或者相匹配的观测值，其 
中一个来自总体1，另一个来自总体2。相匹配的观测值之间所存在的差异使得我们可以考察两个 
总体之间的差异。 
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匹配样本的参数分析方法（配对差异的 t 检验)需要区间数据并假设成对观测值的差异总体服 
从正态分布。 在这个假定下，我们可以采用 t 分布来检验总体均值间不存在差异的零假设。如果 
差异服从正态分布的假设不成立，则我们可以使用维尔克科森符号秩检验。我们可以通过对两种 
不同生产方法的有效性进行比较来描述这种非参数检验。 

某个制造企业正在尝试确定两种生产方法在任务完成时间上存在的差异。选择了 11个工人组 
成一个样本，每一个工人均利用每一种方法完成生产任务。每一个工人首先使用的生产方法都是 
随机挑选的。因此，样本中的每一个工人均提供了一对观测值，如表 19. 3所示。任务完成时间的 
正差异表明方法1需要更多的时间，任务完成时间的负差异则表明方法2需要更多的时间。这些 
数据是否表示这些方法在任务完成时间上的差异是显著的？ 

表 19. 3 生产任务完成时间（分钟） 


方法 


工人 

1 

1 

10.2 

2 

9.5 

差异 

0.7 

2 

9.6 

9.8 

-0.2 

3 

9.2 

8. 8 

0.4 

4 

10.6 

10. 1 

0.5 

5 

9.9 

10.3 

-0.4 

6 

10.2 

9.3 

0.9 

7 

10.6 

10.5 

0. 1 

8 

10.0 

10,0 

0.0 

9 

11.2 

10.6 

0.6 

10 

10.7 

10.2 

0.5 

11 

10.6 

9-8 

0.8 


实际上，我们有两个任务完成时间的总体，每一个总体都对应于一种方法。我们可以对下面 
的检验进行 检测： 


Ho : 总体相同 
H a ； 总体不相同 

如果无法拒绝 i /。， 则我们将没有证据推断两种方法的任务完成时间存在差异。但是，如果 i / o 被 
拒绝，则我们可以得出结论，这两种方法在任务完成时间上是存在差异的。 

维尔克科森符号秩检验的第一步需要把两种方法差异的绝对值进行排序。我们将零差异剔 
除，然后将剩下的差异绝对值由低到高进行排序，相同的差异值将被赋予它们在混合数据集合中 
位置的平均秩。差异绝对值的排序情况如表 19.4 第4列所示。请注意工人8的零差异已经从排序 
中删除。因此，最小的差异绝对值 0.1 的秩被定为1。这种差异绝对值的排序将一直持续到最大 
绝对值 0.9 的秩被赋予值10为止。工人3和工人5的相同绝对差异的秩被定义为平均值 3. 5, 与 
此同时，工人4和工人10的相同绝对差异的秩被定义为平均秩 5. 5。 
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表 19. 4生产任务完成时间例子的差异绝对值排序 


工人 

差异 

差异绝对值 

秩 

符号秩 

1 

0.7 

0.7 

8 

+ 8 

2 

— 0.2 

0.2 

2 

- 2* 

3 

0.4 

0,4 

3.5 

+ 3,5 

4 

0.5 

0.5 

5.5 

+ 5.5 

5 

-0.4 

0.4 

3.5 

- 3.5 

6 

0.9 

0.9 

10 

+ 10 

7 

0. 1 

0. 1 

1 

+ 1 

8 

0.0 

0.0 

— 

—— 

9 

0.6 

0.6 

7 

+ 7 

10 

0.5 

0.5 

5.5 

+ 5.5 

11 

0.8 

0.8 

9 

+ 9 




符号秩的和 

+ 44. 0 


一旦差异绝对值的秩已经确定，这些秩将被赋予数据中原始差异的符号。举个例子，工人7 
的 0.1 差异，其秩为1，由于两种方法的观测值差异为正，所以这个秩被赋予值+ 1。对于工人 
2,由于两种方法之间的观测值差异为负，所以 0.2 的差异值，其秩为2,被赋予值-2。表 19.4 
最后一列给出了完整的符号秩以及它们的和。 

让我们回顾关于两种生产方法任务完成时间相同的原始假设。如果总体表明每一种方法任务 
完成时间是相同的，则我们可以认为正秩和负秩将会相互抵消，因此符号秩之和的数值将接近 
于零。于是，维尔克科森符号秩检验的显著性检验将会包括确定符号秩的总和（在我们的例子中是 
+ 44) 是否显著得不等于零。 

用 r 表示维尔克科森符号秩检验中符号秩的总和。如果两个总体相同，并且相匹配的数据对 
个数为10或者更多时， r 的抽样分布可以用如下的正态概率分布来近似地 表示： 

总体祖同的 r 抽祥分布 

均值： /xt = 0 (19.3) 

标 准差： ❿= V—l) 6 (%+」) (19.4) 

分布形 式：当 时，近似于正态分布。 

对于这个例子，我们在删除了差异为零的观测值（工人 8) 以后得到 n = 10。 因此，利用公式 
(19. 4) 我们有 



^ 10 ( 11 )( 21 ) 


= 19. 62 


图 19. 3是在总体相同的假设下 r 的抽样分布。检验统计量 Z 的数值为 


* 编 者按： 此处原书为+2,疑误。 
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T ^ fjur _ 44 一 0 
( Tt ~ 19. 62 


= 2. 24 



0 


图 19. 3 生产任务完成时间例子中的维尔克科森统计量 r 的抽样分布 

利用 a = 0.05 的显著性水平对无差异零假设进行检验。如果 〆 -1.96 或者01.96,则我们 
可以拒绝//。。根据 z =2. 24,我们可以拒绝并得出 结论： 两个总体不相同，而且两种方法在 
任务完成时间上是存在差异的。利用 z = 2.24, 可以得岀 p -值为 2(0.500 0-0.487 5) =0.025。 
由于11个工人中有8个工人采用第二种方法较快地完成了工作任务，这一事实可以使我们得出结 
论： 两个总体间的差异表明第二种方法是更为高效的生产方法。 



应用 

12. 对两种燃料添加剂进行检验，以确定它们对客车每加仑行驶里数的影响。以下是对12 

iII 3> 辆车的检验结果。每一辆车都使用两种燃料添加剂进行检验。利用 Ct =0.05 的显著性 

自测题 

' 水平和维尔克科森符号秩检验确定两种燃料添加剂之间是否存在显著差异。 



燃料添加剂 


燃料添加剂 

客车 

1 

2 

客车 

1 

2 

1 

20. 12 

18. 05 

7 

16. 16 

17.20 

2 

23. 56 

21.77 

8 

18. 55 

14. 98 

3 

22. 03 

22. 57 

9 

21.87 

20.03 

4 

19. 15 

17.06 

10 

24. 23 

21. 15 

5 

21.23 

21.22 

11 

23.21 

22.78 

6 

24. 77 

23. 80 

12 

25.02 

23. 70 
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13. 一项调查对男人入睡所需要的放松休息时间进行研究，随机挑选了 10个人组成样 

本。10个个体的数据显示了在有无放松条件下的入睡所需分钟数，使用 0.05 的显著 
性水平来确定放松是否会缩短入睡所需时间，你能得出什么结论？ 


调查对象 

无放松 

有放松 

调查对象 无放松 

有放松 

1 

15 

10 

6 

7 

5 

2 

12 

10 

7 

8 

10 

3 

22 

12 

8 

10 

7 

4 

8 

11 

9 

14 

11 

5 

10 

9 

10 

9 

6 

在10个主要的机场抽取了关于汽车每加仑汽油的价格数据。 Avis 和 Budget 汽车租赁公司的数 

据如下所示 （USA Today , April 4, 2000) : 




机场 


Avis 汽车租赁公司 


Budget 汽车租赁公司 


Boston Logan 


1.58 


1.39 


Chicago 0 ， Hare 


1.60 


1.55 


Chicago Midway 


1.53 


1.55 


Denver 


1.55 


1,51 


Fort Lauderdale 


1.57 


1.58 


Los Angeles 


1.80 


1.74 


Miami 


1.62 


1.60 


New York ( JFK ) 


L 69 


1.60 


Orange County , CA 


1.75 


1.59 


Washington ( Dulles ) 


L 55 


1.54 



在 a =0. 05的显著性水平下，对两个总体无差异的假设进行检验，你能得出什么结论？ 

15. 下面是一项有关两种隔夜邮件速递服务的检验，我们对同一个邮件都建立了两个相同的样 
本，以便评判这两种服务对同一个邮件的速递情况。每一次投递所需的时间如下所示。下面 
所示的数据是否表明这两种邮递服务存在差异?在 a = 0. 05的显著性水平下，对此进行检验。 

邮件 邮递服务 



1 

2 

1 

24.5 

28.0 

2 

26.0 

15.5 

3 

28.0 

32.0 

4 

21.0 

20.0 

5 

18.0 

19.5 

6 

36, 0 

28.0 
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(续表) 


邮件 邮递服务 



1 

2 

7 

25.0 

29.0 

8 

21.0 

22.0 

9 

24, 0 

23.5 

10 

26.0 

29.5 

11 

31.0 

30.0 


16. 1997年12种股票的市盈率如下表所示 （ Barro / i ’ s，December 8, 1997) 。假设财务分析给出了 
1998年的市盈率的估计值。在 a =0. 05的显著性水平下，就1997年和1998年这两年的市盈 
率差异你能够得出什么结论？ 


股票 

1997 年市盈率 

1998 年市盈率 

Coca-Cola 

40 

32 

Du Pont 

24 

22 

Eastman Kodak 

21 

23 

General Electric 

30 

23 

General Mills 

25 

19 

IBM 

19 

19 

McDonald’s 

20 

17 

Merck 

29 

19 

Motorola 

35 

20 

Philip Morris 

17 

18 

Walt Disney 

33 

27 

Xerox 

20 

16 


17. 在一项为评价某一特定广告方案的有效性而设计的市场调查中，调查者挑选了 10个城市的市 
场组成样本。每个城市在广告方案投入之前一周的销量（千美元）都已经被记录下来，然后收 
集了广告方案投入之后的每周销量（千美元），两个销量（千美元）数据集合如下 所示： 


城市 

广告活动前的销量 

广告活动后的销置 

Kansas City 

130 

160 

Dayton 

100 

105 

Cincinnati 

' 120 

140 

Columbus 

95 

90 

Cleveland 

140 

130 

Indianapolis 

80 

82 

i 

Louisville 

65 

55 

St. Louis 

90 

105 

Pittsburgh 

140 

152 

Peoria 

125 

140 
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在 a =0. 05的显著性水平下，关于这个广告方案的价值你能够得出什么结论? 


19.3 曼-怀特尼-维尔克科森检验 

在本节中，我们将讨论另一种用于确定两个主体间是否存在差异的非参数方法。这种检验和 
符号秩检验不同，它并不是基于匹配样本的检验。它所使用的两个独立样本来自不同的总体。由 
于这个检验是由曼、怀特尼和维尔克科森合作提出来的，因而它有时被称为曼-怀特尼检验，有 
时被称为维尔克科森秩和检验。这个检验的曼-怀特尼版本和维尔克科森版本是相 同的； 我们倾 
向于把这个检验称为曼 -怀特尼-维尔克科森检验 (Mann-Whitney-Wilcoxon test, MWW ) 0 

回顾第 10 章，我们对两个总体间的均值差异进行了参数检验。我们曾经对下面的假设进行了 
检验： 

Ho ： /JL\ - fl 2=0 
H d : fi\ — 9^0 

在小样本情形下，假设检验需要分散的数据，并且两个总体样本必须是正态分布的。在这些 
情况下，我们可以使用〖分布来检验两个总体间均值的差异。 

非参数的 MWW 检验并不需要分散数据，而且两个总体样本也不必呈正态分布。 MWW 检验 
惟一的要求是数据的测量尺度至少必须是顺序的。除此之外， MWW 检验确定的是两个总体是否 
相同，而不是检验两个总体均值间的差异。 MWW 检验的假设如下 所示： 

Ho ： 两个总体相同 
H u ： 两个总体不相同 

首先我们通过对小样本情形进行检验来阐述如何应用 MWW 检验。 

MWW 检验并不需要两个总体必须是正态分布。 


小样本情形 

如果两个样本的样本容量小于或者等于10,则我们就应该使用 MWW 检验的小样本情形。我 
们通过考察约翰斯通高中学生的学习潜力这个例子来阐述 MWW 检验的小样本情形应用。约翰斯 
通高中大部分学习都在加非德初中或者码贝瑞初中就读，约翰斯通高中的管理者提出的问 题是： 
来自加非德初中的入学学生是否在学习潜力上与来自码贝瑞初中的学生是一样的。假设如下所 


Ho ： 两个样本总体的学生在学习潜力上是相同的 
ft ： 两个样本总体的学生在学习潜力上是不相同的 
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利用高中的记录，约翰斯通高中的管理人员挑选了4名加非德初中的学生和5名码贝瑞初中 
的学生组成随机样本。在本次研究中所涉及的学生如今在高中班级的名次记录如下，这9个学生 
在班级中的排名情况如表 19. 5所示。 


表 19. 5 高中班级排名数据 


加非德初中学生 码贝瑞初中学生 


学生 

班级排名 

学生 

班级排名 

Fields 

8 

Hart 

70 

Clark 

52 

Phipps 

202 

Jones 

112 

Kirkwood 

144 

Tibbs 

21 

Abbott 

175 



Guest 

146 


MWW 过程的第一步是将来自两个样本的混合数据按由低到高的顺序进行排列，最低值(班级 
排名第 8) 的秩为1，最高值(班级排名第 202) 的秩为9。9名学生的排名情况如表 19. 6所示。 

表 19. 6 高中学生的排名情况 


学生 

班级排名 

混合样本秩 

学生 

班级排名 

混合样本秩 

Fields 

8 1 

Kirkwood 

144 

6 

Tibbs 

21 

2 

Guest 

146 

7 

Clark 

52 3 

Abbott 

175 

8 

Hart 

70 

4 

Phipps 

202 

9 

Jones 

112 5 





下一步是分别求出每一个样本的秩和，如表 19.7 所示。 MWW 过程可以使用任何一个样本的 
秩和。在接下来的讨论中，我们使用4名来自加非德初中的学生所组成的样本的秩和，以 r 表 
示，因此，在我们的例子中有 r = ii 。 

现在让我们来考察加非德初中样本秩和的特性。因为这个样本中有4名学生，加非德初中有 
可能在研究中有4名最好的学生，如果真的是这种情形，则 r = l +2 + 3+4 = 10将会是秩和的最 
小可能值。相反的情形是，加非德初中有可能有最差的学生，则7 = 6+7+8+9 = 30将会是最大 
的可能值。因此，加非德初中样本的 r 值肯定位于10和30之间。 

请注意， r 接近10就表示加非德初中的学生更为优秀或者名次更高，如果： r 接近30,则表 
示加非德初中的学生学习潜力较差或者名次较低。如果两个学校的学生学习潜力相同的话，我们 
可以估计 r 值将会接近于平均值，6卩（10 +30)/2 =20。 

两个样本的容量都小于或者等于10的 MWW 检验的 r 临界值如附录 B 的表9所示，在这个 
表中， m 表示的是在这个检验中的秩和所使用的样本容量。我们可以直接从表中读出仄的数 
值，： Tu 的数值则可以从公式 （19. 5) 中计算得出。 


T\] = n«i ( ni + n-2 + 1 ) — Tl 


( 19 . 5 ) 
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表 19. 7 两所初中学生的秩和 


加非德初中 


学生 

班级排名 

样本秩 

Fields 

8 

1 

Clark 

52 

3 

Jones 

112 

5 

Tibbs 

21 

2 

秩和 


11 


码贝瑞初中 


学生 

班级排名 

样本秩 

Hart 

70 

4 

Phipps 

202 

9 

Kirkwood 

144 

6 

Abbott 

175 

8 

Guest 

146 

_7 


34 


7 Y 和几的值都不在拒绝域之中，只有在 T 严格小于 7 Y 或者严格大于 7\ j 时，我们才能拒绝相同 
总体的零假设。 

举个例子，根据附录 B 的表9和 a =0. 05的显著性水平，我们可以看到 m =4( 加非德初 
中）、 m =5( 码贝瑞初中）的 MWW 统计量的低端临界值为71=12。根据公式（19.5)，我们计算 
MWW 统计量的低端临界值为 


7 \j =4(4 + 5+1) -12=28 

因此， MWW 决策法则可以 表明： 如果第一样本(加非德初中）的秩和小于12或者大于28,则我们 
可以拒绝两个总体相同的零假设。拒绝法则 如下： 

如果 r <12 或者7>28,则我们可以拒绝7/ 0 。 

如果我们用码贝瑞初中学生的秩和来进行检验，我们将 得到： ^i=5, n 2 = 4 f T l = 

17, T v =33, T = 34 0 根据： T 〉：^， 我们可以得到拒绝执的同样的结论。 


参见表19.7,可以看到 r = ii ， 因此，我们可以拒绝零假设，并且得出 结论： 在学习潜力方 
面，加非德初中的学生总体与码贝瑞初中的学生总体是不同的，加非德初中的学生所获得的班级 
排名比较高，这表明相比较于码贝瑞初中的学生，加非德初中的学生为高中学习所打下的基础要 
更好一些。 

大样本情形 

如果两个样本容量都大于或者等于10时，我们可以使用 r 分布的正态近似来进行 mww 检 
验。以第三国民银行为例，我们来演示大样本情形。 

第三国民银行有两个分行，表 19. 8列示的是从两个分行中的两个独立简单随机样本中挑选出 
来的数据。这些数据是否意味着两个分行的支票账户余额总体相同呢？ 

MWW 检验的第一步是 将混合 数据按由低到高的顺序进行排序，根据表 19.8 中的22个观测 
值，我们发现最低值(样本2的第6项）为750美元，我们把它的秩定为1。继续排秩，可以得到 
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如下的 表格: 


余额 ( 美元） 

项目 

秩 

750 

样本2的第6项 

1 

800 

样本2的第5项 

2 

805 

样本1的第7项 

3 

850 

样本2的第2项 

4 

1 195 

样本1的第4项 

21 

1 200 

样本1的第3项 

22 


表 19. 8 第三国民银行两个分行的账户余额 



分行 1 


分行 2 

账户 

余额 ( 美元） 

账户 

余额 ( 美元） 

1 

1 095 

1 

885 

2 

955 

2 

850 

3 

1 200 

3 

915 

4 

1 195 

4 

950 

5 

925 

5 

800 

6 

950 

6 

750 

7 

805 

7 

865 

8 

945 

8 

1 000 

9 

875 

9 

1 050 

10 

1 055 

10 

935 

11 

1 025 



12 

975 




在对混合数据进行排序时，我们可能会发现两个或者更多的相同数据。在这种情况下，我们 
可以将混合数据集合中所处位置的平均秩赋给它们。举个例子，（样本1的第8项）余额945美 
元，它的秩被定为11。但是，数列中排在它后面的两个数值为950美元(样本1的第6项，样本 
2的第4项），由于准备将这两个数值的秩定为13和12,因此，根据前面的规则，将它们的秩定 
为 12. 5。对于下面较高数值的955美元，我们可以继续排秩过程，将它的秩定为14。表 19. 9即 
为全部数据集合和每一项观测值的秩。 


在样本容量^ = 12和 n 2 = 10 的情况下，我们可以使用 r 的抽样分布正态近似。合适的抽 
样分布如下 所示： 


祖同总体的 r 抽祥分栢 


均值： /JiT = / / 2 n \( n \ + ri2 + 1 ) 

(19.6) 

标准差： cr T = %. n \ m { n \ + + 1 ) 

(19.7) 

分布 形式： 如果且&>10，则为正态分布。 











第 19 章非参数方法869 


表 19. 9 第三国民银行两个样本数据的混合排秩 



分行 1 



分行 2 


账户 

余额 ( 美元） 

秩 

账户 

余额 ( 美元） 

秩 

1 

1 095 

20 

1 

885 

7 

2 

955 

14 

2 

850 

4 

3 

1 200 

22 

3 

915 

8 

4 

1 195 

21 

4 

950 

12.5 

5 

925 

9 

5 

800 

2 

6 

950 

12.5 

6 

750 

1 

7 

805 

3 

7 

865 

5 

8 

945 

11 

8 

1000 

16 

9 

875 

6 

9 

1050 

18 

10 

1 055 

19 

10 

935 

10 

11 

1025 

17 


秩和 

83.5 

12 

975 

15 





秩和 

169.5 





对于分行1，我们可以得到 


12(12 + 10 + 1) =138 
a T = 7^12(10)(12 + 10 + 1) =15. 17 

r 的抽样分布如图 19.4 所示。紧接着是一般的假设检验过程，我们计算出检验统计量用 
它来确定 r 观测值是否来自图 19.4 所示的抽样分布。如果 r 不是来自这个分布，则我们可以拒 
绝零假设，并得出结论两个总体是不同的。对统计量进行计算，我们可以得到 

T -叫 一 169.5 - 138 _ 

卜 - 15. 17 - 2 . 08 

在 0.05 的显著性水平下，我们知道如果要拒绝执， z 必须要小于 -1.96 或者大于+ 1.96。 
因为2 = 2.08， p -值为 2(0.500 0-0.481 2) =0.037 6< a = 0.05，所以我们可以拒绝 i /。。 因此， 
可以得出 结论： 两个总体是不同的。也就是说，两个分行的账户余额总体不同。 



138 

图 19.4 第三国民银行示例中的 r 抽样分布 


T 


870 商务与经济统计 


如果我们使用的是分行2的秩和， 则有叫 = 10，叱=12,叫=115 ， r = 83,5。 根据 
z = -2.08, 我们也可以拒绝讯假设。 


总的说来，曼-怀特尼-维尔克科森秩和检验确定两个独立随机样本是否来自相同总体的步 
骤 如下： 

1 . 将混合样本观测值按由低到高的顺序进行排秩，如果值相同，则赋予相应秩的平均数。 

2 . 计算第一样本的秩和 r 。 

3. 在大样本情形下，将 r 的观测值与相同总体下的 r 抽样分布进行比较，以此来检验 
两个总体间的显著差异[如公式 （19.6) 和公式 （19.7) 所示]。标准化的检验统计量 z 的 
数值将决定是否拒绝在小样本情形下，我们可以使用附录 B 的表9找到该检验 
的临界值。 



本节中所讨论的非参数检验用于确定两 
个总体是否相同。如第10章中所讨论的 f 检 
验，参数统计检验是用于检验两个总体间均 
值是否相等。当我们可以拒绝均值相同的假 
设时，就可以得出 结论： 两个总体的均值是 
不相同的。如果我们利用 MWW 检验拒绝两 
个总体相同的假设，则无法证明它们是如何 
不同的。两个总体可能有不同的均值和不同 


的方差，以及（或者）不同的分布形式。因 
此，如果我们相信两个总体除了均值外其他 
方面都相同，则我们可以利用非参数方法拒 
绝讯，这表明其均值是不相同的。 与参数 t 
检验相比， MWW 检验的主要优点在于它对观 
测值来源的概率分布形式没有任何要求，并 
且它可以使用顺序数据。 



应用 

18. 对两种燃料添加剂进行检验以确定它们对汽油消耗产生的作用，对于添加剂1，我们 

检测了 7 辆汽车，对添加剂2,检测了 9辆汽车。下面的数据给出了使用两种添加剂 
所得到的每加仑汽油的行驶里程数。利用 a =0.05 的显著性水平和 MWW 检验，检测 
这两种添加剂对汽油行驶里程的作用是否存在差异。 
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添加剂 1 

添加剂 2 

17.3 

18.7 

18.4 

17.8 

19. 1 

21.3 

16.7 

21.0 

18.2 

22. 1 

18.6 

18.7 

17.5 

19.8 


20.7 


20.2 


19. 注册会计师和财务分析师的个人起始年薪样本如下所示 （ Fomrne，June 26, 1995)，起 

mr ~ i > 始年薪以千美元计。 

自测题 


注册会计师 

财务分析师 

注册会计师 

财务分析师 

25.2 

24.0 

30.0 

28.6 

33.8 

24.2 

25.9 

24.7 

31.3 

28.1 

34.5 

28.9 

33.2 

30.9 

31.7 

26.8 

29.2 

26.9 

26.9 

23.9 


a . 在 a = 05的显著性水平下，对注册会计师和财务分析师起始年薪没有差异的假设进行检 

验，能得出什么结论？ 

b . 两种职业年薪的样本均值是多少？ 

20 . 拥有同等学历的男性和女性在职业收入上的差异正在缩小，但是收入并没有达到靠近的程度 
(USA Today , September 15，2000)。具有学士学位的7位女性和男性的职业收入数据如下所 
示，收入以千美元计。 


男性 

30.6 

75.5 

45.2 

62.2 

38.2 

49.9 

55, 3 

女性 

44,5 

35.4 

27.9 

40. 5 

25.8 

47.5 

24.8 


a . 男性的收入均值是多少？女性呢？ 

b . 在 a =0.05 的显著性水平下，对相同总体进行假设检验，能得出什么结论？ 

21 . 对两种型号的汽车进行行驶里程状况的检验，从每一种型号中随机挑选出12 辆汽车， 
然后在高速公路上行驶1 000英里，得到各种型号的汽车每加仑汽油行驶里程数，如下 
所示： 
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型号 1 型号 2 


汽车 

每加仑行驶里程 

汽车 

每加仑行驶里程 

1 

20.6 

1 

21.3 

2 

19.9 

2 

17.6 

3 

18.6 

3 

17.4 

4 

18.9 

4 

18.5 

5 

18. 8 

5 

19.7 

6 

20.2 

6 

21. 1 

7 

21.0 

7 

17.3 

8 

20.5 

8 

18.8 

9 

19.8 

9 

17.8 

10 

19.8 

10 

16.9 

11 

19.2 

11 

18,0 

12 

20.5 

12 

20. 1 


在 a = 0. 10的显著性水平下，对这两种型号的汽车每加仑汽油行驶里程数总体间是否存在显 
著差异进行检验。 

22. 《商业周刊》每年都公布有关世界最大的1 000家公司的统计数据。一个公司的市盈率 ( P / E ) 
表示的是这个公司的当前股票价格除以最近12个月的每股收益。表 19. 10列出的是10家日 
本公司和12家美国公司的市盈率 （ Business Week , July 11, 1994) 0 这两个国家公司的市盈率是 
否存在显著差异？利用 MWW 检验和 a =0.01 的显著性水平来支持你的结论。 

表 19, 10 日本和美国公司的市盈率 


日本 美国 


公司 

市盈率 

公司 

市盈率 

Sumitomo Corp. 

153 

Gannet 

19 

Kinden 

21 

Motorola 

24 

Heiwa 

18 

Schlumberger 

24 

NCR Japan 

125 

Oracle Systems 

43 

Suzuki Motor 

31 

Gap 

22 

Fuji Bank 

213 

Winn-Dixie 

14 

Sumitomo Chemical 

64 

Ingersoll-Rand 

21 

Seibu Railway 

666 

American Electric Power 

14 

Shiseido 

33 

Hercules 

21 

Toho Gas 

68 

Times Mirror 

38 



WellPoint Health 

15 


Northern States Power 


14 
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23. 两个样本分别由冬季和夏季几个月中的一段时期组成，下面的警察记录显示了在这两个样本 
期间的每日犯罪数据。在 a =0. 05的显著性水平下，请确定犯罪数量在冬季和夏季这两个样 
本期间是否存在显著差异。 


冬季 

夏季 

18 

28 

20 

18 

15 

24 

16 

32 

21 

18 

20 

29 

12 

23 

16 

38 

19 

28 

20 

18 


24. 某一特定品牌的微波炉在达拉斯10家商场和圣 • 安东尼奥的13家商场的标价如下所示。在 
a =0. 05的显著性水平下，对这一品牌的微波炉在两个城市的销售价是否相同进行检验。 


达拉斯 

圣 • 安东尼奥 

445 

460 

489 

451 

405 

435 

485 

479 

439 

475 

449 

445 

436 

429 

420 

434 

430 

410 

405 

422 


425 


459 


430 


25. 全美建筑协会给出了最为流行的家庭装修工程的成本数据 （ f /&4： To 也 y , June 17, 1997) ,在 
a -0. 05的显著性水平下，利用曼-怀特尼-维尔克科森检验来检验厨房装修成本和主卧装 
修成本是否存在差异。 
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厨房 
25 200 
17 400 
22 800 
21 900 
19 700 
23 000 
19 700 
16 900 
21 800 
23 600 


主卧 
18 000 
22 900 
26 400 
24 800 
26 900 
17 800 
24 600 
21 000 


19. 4克鲁斯卡尔-沃利斯检验 

19. 3节中的 MWW 检验是用于检验两个总体是否相同，而克鲁斯卡尔_沃利斯检验则将其扩 
展到检验3个或者更多总体是否相同的情形。对于多3个总体的克鲁 斯卡尔-沃利斯检验 
( Kruskal-Wallis test ) ,其假设形式如下： 

Ho : 所有总体相同 

H a ： 并不是所有总体都相同 

克鲁斯卡尔-沃利斯检验是基于对来自个总体中的每一个总体独立随机样本进行分析的。 


该检验是第13章中 ANOVA 的一个补充，它集中讨论总体为&的均值的相等性。 


表 19.11 20 名威廉姆斯 

员工的表现评估等级 


在第13章中，我们已经讨论了方差分析 ( ANOVA ) 可以用于检验3个或者更多总体的均值是 
否相等。 ANOVA 过程要求数据类型为区间或者比例类型，所有总体均为正态分布，而且各个总体 

的方差必须相等。 

非参数的克鲁斯卡尔-沃利斯检验可以被用于序数、区间或者比 
例类型的数据。并且，克鲁斯卡尔-沃利斯检验不要求总体为正态分 
布的假设。因此，只要来自于的独立随机样本的数据是序数的， 
或者正态假设以及方差相等的假设未能完全得到满足时，克鲁斯卡尔 
- 沃利斯检验就可以作为一种替代统计检验方法用于检验总体是否相 
同。我们将克鲁斯卡尔-沃利斯检验应用于一个挑选雇员的例子，以 
此来阐述克鲁斯卡尔-沃利斯检验。 

威廉姆斯制造公司从当地3所大学招聘管理工作人员。最近该公 
司人力资源部收集并评选出了员工的年度表现等级，希望能够通过这 


大学 A 

大学 B 

大学 

25 

60 

50 

70 

20 

70 

60 

30 

60 

85 

15 

80 

95 

40 

90 

90 

35 

70 

80 


75 
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种评选来确定从这3所大学招聘的管理人员是否存在工作表现差异。从7名来自 A 大学的员工、 

6名来自 B 大学的员工、7名来自 C 大学的员工所组成的样本中得到的评选数据如表 19. 11所示。 
每名管理人员的总体表现等级分值在0 —100之间，其中100是可能的最高表现等级。 

假设我们计划检验这三个总体之间是否存在表现评价的差异，以每个样本的秩和为基础，克 


鲁斯卡尔-沃利斯检验统计量计算 如下： 


克魯斯长尔-沃利斯检验统计盪 




12 


^ nAnT^ 1 ) Tf rii J 


3 ( /ir + 1) 


(19,8) 


式中 k ——总体 个数； 

Ui ——样本 i 的个 体数； 

tit ——2 71/ =所有样本的个体 总数; 

R t -样本 i 的秩和。 


克鲁斯卡尔和沃利斯已经证明在各个总体相同的零假设下，我们可以用一个自由度为灸-1 
的;^分布来近似取抽样分布。如果每个样本的容量都大于或者等于5,则这种近似是可以被普遍 


接受的。 


克鲁斯卡尔-沃利斯检验仅仅需要用到数据的秩。 


为了计算例中的取统计量，我们首先必须对所有20个数据项进行排序。来源于 B 大学样本 
的15是最小的数据值，它的秩为1;来源于 A 大学样本的95是最大数值，其秩为20。表 19. 12 
给出了数据的数值、相应的秩以及三个样本的秩和。请注意对于同分值，我们把它的秩定义为秩 
的平均数/例如，数值60, 70, 80和90都具有同分值。 

表 19. 12 20 名威廉姆斯公司的雇员混合秩 


大学 A 

秩 

大学 B 

秩 

大学 c 

秩 

25 

3 

60 

9 

50 

7 

70 

12 

20 

2 

70 

12 

60 

9 

30 

4 

60 

9 

85 

17 

15 

1 

80 

15.5 

95 

20 

40 

6 

90 

18.5 

90 

18.5 

35 

5 

70 

12 

80 

15.5 



75 

14 

秩和 

95 


27 


88 


* 如果观测到了大量的同分秩，则我们必须对公式 （ 19. 8) 进行修正，修正后的公式见 W. J. Conover 所著的 Practical Non- 


parametric Statistics Q 
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样本容量为 

71\ = 7 U2 = 6 713 =1 

并且 tit = = 7 + 6+ 7= 20 

我们可以利用公式 （19. 8) 计算 W 统计量 

『 12 f (95) 2 . (27 ) 2 . (88) 2 1 剌」、, 

W ^ W 2 V )\^1 7 . -3(20 + 1)=8.92 

附录 11. 1 和 11.2 中的计算步骤说明了如何利用 Minitab 和 Excel 来计算 p -值= 
0.012。 

!»anc»tt^^ra^Afl4jK cgi a « e»ai«*=W*n»wy^u?^Msg^^<itfi^a»*^3"jgai»fW8na~^fa»^»cjCigiEam«4ga*a^^y j v^^-. ,> <-•—«sws*v -、 

卡方分布表（见附录 B 的表 3) 显示出在自由度为 A：-l =2并且在这个分布高端的 a =0. 05 
时，临界值为/= 5. 991 47。因为检验统计量 r = 8.92>5. 99 147,因此我们可以拒绝三个总体相 
同的零假设，并得出 结论： 来自不同大学的管理人员，他们的业绩表现是明显不同的。表现等级 
较低的为 B 大学，因此公司有理由减少从 B 大学招聘员工的数额，或者至少需要对毕业于这个大 
学的员工进行更加深人的考核。 



本例中的克鲁斯卡尔-沃利斯检验过程 
开始于区间尺度数据的收集，而这些数据是 
用于表示员工的业绩评价等级。如果20名员 
工的数据为顺序数据，这个过程也是奏效 


的。在这种情况下，克鲁斯卡尔-沃利斯检 
验可以直接应用原始数据。关于员工业绩评 
价等级的排秩过程则是可以忽略的。 



方法 

26. 由15名消费者所组成的一个评价组对下面三种商品性能给出了如下的 评价: 



自测题 


A 

B 

C 

50 

80 

60 

62 

95 

45 

75 

98 

30 

48 

87 

58 

65 

90 

57 
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利用克鲁斯卡尔-沃利斯检验和 a = 0. 05的显著性水平来确定这三种商品性能评价是否 
存在显著差异。 

27. 我们对三个接受测试的准备程序进行了评价，下面是20个曾经进行过这种测试准备程序的人 
所组成的样本得分，在 a =0.01 的显著性水平下，利用克鲁斯卡尔-沃利斯检验确定这三种 
准备程序是否存准显著差异。 


程 序 


A 

B 

C 

540 

450 

600 

400 

540 

630 

490 

400 

580 

530 

410 

490 

490 

480 

590 

610 

370 

620 


550 

570 


应用 

28. 下面的活动如果每个星期进行三天、每次40分钟，这样的消耗会导致体重下降。以 

下的样本数据为三种不同的活动在40分钟内所消耗的卡路里。这些数据是否能够表 

自测题 

明这三种活动所消耗的卡路里是不同的？在 a = 0. 05 的显 著性水平下，你能得出什么 
结论？ 


游泳 

网球 

自行车 

408 

415 

385 

380 

485 

250 

425 

450 

295 

400 

420 

402 

427 

530 

268 


29. 以下是三种不同的汽车在测试中所得到的每加仑汽油行驶里程。在 a =0. 05的显著性水 
平下，利用克鲁斯卡尔-沃利斯检验来确定这三种汽车的汽油行驶里程是否有显著的不 
同。 
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汽车 


A 

B 

C 

19 

19 

24 

21 

20 

26 

20 

22 

23 

19 

21 

25 

21 

23 

27 


30. —家大公司将它的许多第一流的经理送去进行脱产的管理技能学习，有四家不同的管理发展 
中心提供这种课程的培训，这家公司打算确定这四家管理中心所提供的课程质量是否有差 
异。抽出20名参加过课程培训的员工组成样本，然后将这些员工按管理技能进行排序。结果 
如下 所示： 


课程 


管理技能秩 


1 

3 

14 

10 

12 

13 

2 

2 

7 

1 

5 

11 

3 

19 

16 

9 

18 

17 

4 

20 

4 

15 

6 

8 


请注意，秩最高的管理人员参加了课程2，而秩最低的管理人员参加了课程4。在 a =0.05 的 
显著性水平下，检验这四种课程是否存在显著的不同。 

31. 畅销的糖果往往含有较高的卡路里。假设下列数据为 M & Ms 、 KitKat、Milky Way II 糖果样本 
中所含的卡路里。在 a =0.05 的显著性水平下检验这三种糖果所含有的卡路里，你能得出什 
么结论？ 


M&Ms Kit Kat Milky Way H 


230 

225 

200 

210 

205 

208 

240 

245 

202 

250 

235 

190 

230 

220 

180 


19.5 秩相关 


斯皮尔曼秩相关系数与应用于序数数据或排秩数据的皮尔逊相关系数是相同的。 


相关系数是对两个可以得到区间或者比例数据的变量间的线性关系的度量。在本节中，我们 
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考察在只能得到顺序数据时两个变量间关系的度量。 斯皮尔曼秩相关系数 (Spearman mnk - correla - 


tion coefficient ) 正是针对这一目的而提出来的。 


斯皮尔曼秩相关系数 



, 62出 

n ~ n ( n 2 - 1 ) 

(19.9) 

式中 n 

一排秩的项目或个体的 数量； 


Xi 一 

一第 i 项对于第一个变量的秩； 


yr- 

一第 i 项对于第二个变量 的秩； 


di — 

— Xi - y io 



下面我们用一个例子来阐述斯皮尔曼秩相关系数的应用。有一家公司打算确定那些在雇用的 
时候预计会成为优秀销售人员的人是否能够真正拥有良好的销售业绩。为了解决这个问题，负责 
人力资源的副经理仔细考察了公司目前在职的10名销售人员原来的求职面试总结、学习成绩和推 
荐信。经过对这些人员的检查，这位副经理根据这10名销售人员在面试时的信息将他们的预计销 
售业绩做了排秩。然后再根据他们在两年中的实际销售业绩进行第二次排秩。表 19. 13给岀了相 
关的数据和排秩结果。统计上的问 题是： 预计销售业绩的排秩情况和两年来的实际销售业绩表现 
是否一致。 


表 19. 13 10 名销售人员两年来的预期和实际销售业绩的排秩 


销售人员 

预期销售排秩 

两年来的销售额 

根据两年来的销售额所做排秩 

A 

2 

400 

1 

B 

4 

360 

3 

C 

7 

300 

5 

D 

1 

295 

6 

E 

6 

280 

7 

F 

3 

350 

4 

G 

10 

200 

10 

H 

9 

260 

8 

I 

8 

220 

9 

J 

5 

385 

2 


让我们来计算表 19. 13中数据的斯皮尔曼相关系数。计算过程如表 19. 14所示。我们可以看 
到秩相关系数为正的0.73。斯皮尔曼秩相关系数的取值范围为 -1.0 到 + 1.0 之间，而且斯皮尔 
曼秩相关系数的解释类似于样本相关系数，接近于 1.0 的正值表示两种排秩之间存在很强的正相 
关 关系； 其中一个秩上升，则另一个秩也会上升。秩相关系数接近于 -1.0 则意味着两种排秩之 
间存在很强的负相关关系，如果一个秩上升，则另一个秩将会下降。 r , =0.73 表示预计销售潜力 
和实际销售业绩之间存在正相关关系。预计销售潜力排秩较高的人在实际销售业绩表现上的排秩 
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也比较高。 


表 19. 14 预期销售和实际销售业绩的斯皮尔曼秩相关系数的计算过程 

销售人员 x =预期销售排秩 ^ =根据两年来的销售额所做排秩 


A 

B 

C 

D 

E 

F 

G 

H 

I 

J 


2 

4 

7 
1 
6 
3 

10 

9 

8 

5 


3 

5 

6 

7 

4 
10 

8 
9 
2 


= 1 ^ Tofi^MT = a 73 



df 

1 

1 

4 

25 

1 

1 

0 


3 _9 

2 d- 2 = 44 


秩相关显著性检验 

至此我们已经学习了怎样利用样本结果来计算样本秩相关系数。和许多其他的统计过程相 
似，我们也希望利用抽样结果来估计总体的秩相关系数 p ,。 为了估计总体的秩相关系数，我们必 
须检验如下的 假设： 

Ho ： p s =0 

i/a ： P^O 


在不存在秩相关 ( p 5 = 0) 的零假设下，排秩过程是独立的，而且 r s 的抽样分布如下 所示: 


r s 的抽祥分币 

均值：^ = 0 

(19.10) 


标 准差： ( T ri - yj n _ f 


分布 形式： 如果 n ^ lO , 

则为正态分布。 



预计销售潜力和销售表现之间的样本秩相关系数为 n =0. 73,根据这个数值，我们可以检验 
秩相关的显著性。从公式 （19. 10) 我们可以看到&=0,而且根据公式 U 9. 11) 我们可以 得到： 


a rs = Vl /(10- 1)=0. 33 0 利用检验统计量，我们可以得到 
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r s - /4 0. 73 - 0 ^ … 

z= ^T" = ~0^3~ = 2 - 21 

在 ct =0.05 的显著性水平下，我们可以 看到： 如果 z <-1.96 或者 A 1.96, 则我们可以拒绝 
不相关的零假设。由于 z = 2.21， 并且 p - 值 =2(0.5000-0. 4864) =0.027 2 小于 o : = 0, 05,所 
以我们可以拒绝不存在秩相关的假设。因此，我们可以得出 结论： 销售潜力与实际销售业绩之间 
存在显著的秩相关关系。 



方法 

32. 考察下面的 10 个元素所组成的样本的排秩 数据: 


r ^> 

自测题 

元素 

Xi 

r < 

元素 




1 

10 

8 

6 

2 

7 


2 

6 

4 

7 

8 

6 


3 

7 

10 

8 

5 

3 


4 

3 

2 

9 

1 

1 


5 

4 

5 

10 

9 

9 


a . 计算这些数据的斯皮尔曼相关系数。 





b . 在 a = 0. 05的显著性水平下，检验秩相关的显著性，并陈述你的结论。 
33,考察下面6个项目的两组 排秩： 


项目 

A 

B 

C 

D 

E 

F 


情形1 
第一次排秩 
1 

2 

3 

4 

5 

6 


第二次排秩 
1 
2 

3 

4 

5 

6 


项目 

A 

B 

C 

D 

E 

F 


情形2 
第一次排秩 
1 

2 

3 

4 

5 

6 


第二次排秩 
6 
5 
4 
3 
2 


请注意第一种情形两次排秩是相同的，但是第二种情形两次排秩正好相反。对于这两种情形 
的每一种，你所预计的斯皮尔曼相关系数是多少？请解释原因，并计算每种情形下的秩相关 
系数。 
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应用 

34. 下面这个样本由11个州组成，下表给出了它们在学生教师数量的比值 （1= 最低， 

11 =最高）以及每个学生费用 （ 1 = 最低，11 =最高）的排秩。 

自测题 


秩 秩 


州 

学生一教师比值 

单位学生费用 

州 

学生一教师比值 

单位学生费用 

亚利桑那 

10 

9 

马萨诸塞 

1 

1 

科罗拉多 

8 

5 

内布拉斯加 

2 

7 

佛罗里达 

6 

4 

北达科他 

7 

8 

爱达荷 

11 

2 

南达科他 

5 

10 

衣阿华 

4 

6 

华盛顿 

9 

3 

路易斯安那 

3 

11 





在 a =0. 05的显著性水平下，单位学生费用和学生一教师比值之间是否存在显著相关关系? 


35. Harris 公司进行了 一项国际性的调查，对一流跨国公司及其声誉进行评估 （ 77 ie 

Journal , November 18, 1999) 。下面的两个表格显示了 10个跨国公司的声誉排秩以及被采访 
者愿意购买该公司股票的比例排秩情况。我们预计在这两者之间会有一个正的秩相关，因为 
一个公司的声誉越高，则公众会更加踊跃地购买它的股票。 


户胥 


Microsoft 1 

Intel 2 

Dell 3 

Lucent 4 

Texas Instruments 5 

Cisco Systems 5 

Hewlett-Packard 7 

IBM 8 

Motorola 9 

Yahoo m 


购买意愿 

3 

4 
1 
2 
9 

5 

10 

6 

7 

8 


a . 计算声誉和购买意愿之间的秩相关系数。 

b . 对正的秩相关系数进行显著性检验， p - 值是多少？ 
C. 在 o : =0.05 的显著性水平下，你能得出什么结论？ 
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36. 下面是1996年职业高尔夫球手击球距离和击球杆数样本的排秩情况 （Golf Digest , January 
1997) o 在 a = 0. 10 的显著性水平下，击球距离和击球杆数之间的秩相关系数是多少？ 


职业高尔夫球选手 
Fred Couples 
David Duval 
Ernie Els 
Nick Faldo 
Tom Lehman 
Justin Leonard 
Davis Love IE 
Phil Mickelson 
Greg Norman 
Mark 0 ’ Meara 


击球距离 
1 

5 
4 
9 

6 
10 

2 

3 

7 

8 


击球杆数 

5 

6 
10 

2 

7 

3 

8 
9 

4 


37. —个学生组织对近期毕业的学生和在校生进行了一项调查，希望通过这次调查获得关于某所 
大学教学质量的信息。对调查结果进行分析，得到了下列教学能力的排秩。请问由在校生给 
出的排秩是否和近期毕业的学生给出的排秩情况相同？在 a =0.10 的显著性水平下，检验秩 
相关的显著性。 


秩 


教授 

在校生 

近期毕业的学生 

1 

4 

6 

2 

6 

8 

3 

8 

5 

4 

3 

1 

5 

1 

2 

6 

2 

3 

7 

5 

7 

8 

10 

9 

9 

7 

4 

10 

9 

10 



在本章中，我们给出了几种非参数方法的统计过程。前面章节中的参数方法通常要求的是 
区间或者比例类型的数据，而且一般都是以总体的各种假设为基础的（比如说，假设概率分布 
是正态分布）。因为非参数方法不仅可以应用于区间或者比例类型的数据，而且可以应用于名 
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义和序数类型的数据，而且对总体分布没有要求，所以它们扩展了统计分析研究对象问题的范 
围。 

符号检验是一种在只能够得到名义数据时确认两个总体之间差异的非参数过程。在小样本情 
形下，我们可以用二项概率分布来确定符号检验的临 界值； 在大样本情形下，我们可以使用正态 
近似。维尔克科森符号秩检验是在能够得到匹配对象的区间或者比例数据时分析匹配样本的过 
程。它对总体的分布并没有假设要求。维尔克科森符号过程检验的是被考察的两个总体是否相同 
的假设。 

曼-怀特尼-维尔克科森检验是一种基于两个独立随机样本，用于检验两个总体间差异的非 
参数方法。对于小样本情形，我们给出了临界值表。对于大样本情形，我们则使用正态近似。克 
鲁斯卡尔-沃利斯检验将曼-怀特尼-维尔克科森检验扩展到了三个或者更多的总体，它是和检 
验总体均值间差异的 ANOVA 参数检验相对应的非参数方法。 

在本章的最后一节中，作为一种对考察对象两种顺序或者排秩间的相关性的度量，我们介绍 
了斯皮尔曼秩相关系数。 


术语辞义 


非参数 方法： 对总体的概率分布假设和测量尺度要求很少的参数方法。如果能够得到名义或者顺 

序数据时，我们可以应用这些方法。 

自由分布 检验： 另一种非参数统计方法的名称，它表明不需要对总体概率分布作出假设。 

符号 检验： 一种非参数统计检验方法，它以对名义数据的分析为基础，可以用于对两个总体间的 
差异进行判断。 

维尔克科森符号秩 检验： 一种非参数统计检验，以对相互匹配或成对样本的分析为基础，用于判 

断两个总体间的差异。 

曼-怀特尼-维尔克科森 检验： 一种非参数统计检验，以对两个独立样本进行分析为基础，用于 

判断两个总体间的差异。 

克鲁斯卡尔-沃利斯 检验： 一种非参数检验，用于确定三个或者多个总体间的差异。 

斯皮尔曼秩相关 系数： 一种基于两个变量之间的排秩相互关系的测量。 


f 妻公 



符号检验(大样本情形) 


均值 ： jjl = 0 . 50 n 
标准差：= \lQ. 25 n 


(19.1) 

(19.2) 




维尔克科森符号秩检验 


第 19 章非参数方法885 


均值：^7 = 0 

标准差： 仍 = ^ Lnll^ntAl 

曼-怀特尼-维尔克科森检验(大样本情形） 

均值： fJiT= 1/2 Tl\{ni + ^2 + 1 ) 

标准差： cr T = Vl/12 n \ ri2 ( n \ + ri2 + 1 ) 


克鲁斯卡尔-沃利斯检验统计量 


W 


12 


n T (n T ^ \) Jit 



— 3( jit + 1 ) 


斯皮尔曼秩相关系数 


r a = 1 


6ldf 


n ( n 2 一 1 ) 


(19.3) 

(19.4) 


(19.6) 

(19.7) 


(19.8) 


(19. 9) 


计免炼 


38. 《美国民意调查》 （ American Opinion Survey ) ( The Wall Street Journal , March 4 ， 1997) 提出 
了下面的一些 问题： 你是赞同还是反对为将子女送入私立学校的家庭提供来自国家税收的代 
金券或者减税？在接受调查的2010人中，有905人赞同这种资助政策，1 045人反对这种资 
助，60人没有表态。这些数据是否能够表明人们对为将子女送入私立学校的家庭进行资助存 
在分歧？利用 a : =0.05 进行显著性检验。 


39. 一居室住宅的全国平均销售价格是118 000美元 （ 7 Vie Wall Street Journal Almanac , 1998) 。 假设 
下面的数据来自休斯敦和波士顿现有的一居室住宅销售 情况： 



高于118 000美元 

等于118 000美元 

低于118 000美元 

休斯敦 

11 

2 

32 

波士顿 

11 

1 

13 


a . 休斯敦的平均销售价格是否低于118000美元的全国平均价格？在 a =0.05 的显著性水平 
下，利用统计检验量来支持你的结论。 

b . 波士顿的平均销售价格是否高于118000美元的全国平均价格？在 a = 0.05 的显著性水平 
下，利用统计检验量来支持你的结论。 

40. 有12名家务人员对两种品牌的冰箱进行零售价格的评估。他们估计的零售价格如下，根据这 
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些数据评价两种品牌冰箱零售价之间是否存在差异，利用 a =0. 05的显著性水平。 


家务人员 

品牌 1( 美元） 

品牌 2( 美兀） 

家务人员 

品牌 1( 美元） 

品牌 2( 美元 ) 

1 

650 

900 

7 

700 

890 

2 

760 

720 

8 

690 

920 

3 

740 

690 

9 

900 

1 000 

4 

700 

850 

10 

500 

690 

5 

590 

920 

11 

610 

700 

6 

620 

800 

12 

720 

700 


41. 有一项研究用于评价某种新饲料对家禽的增重能力，这项研究利用了由12只小鸡组成的样 
本，研究历时六星期。每只鸡在六周前后的重量均被记录下来。12只鸡的重量在六周前后的 
差值分 别为： 1.5, 1.2, -0.2, 0.0, 0.5, 0.7, 0.8，1.0, 0.0， 0.6, 0.2, -0.01。其中 
负值表示在测试期间鸡的体重减少，而 0.0 则表示体重没有什么变化。利用 a =0.05 的显著 
性水平，确定这种新饲料是否能使鸡的体重增加。 

42. 以下的数据是关于两条生产线上的产品重量，利用 a =0. 10的显著性水平，检验两条生产线 
所生产的产品重量是否存在差异。 


生产线 1 

生产线 2 

13.6 

13.7 

13.8 

14. 1 

14.0 

14.2 

13, 9 

14.0 

13.4 

14.6 

13.2 

13.5 

13.3 

14.4 

13.6 

14. 8 

12.9 

14.5 

14.4 

14.3 


15.0 


14.9 


43. 某个经纪人计划确定对一个过程进行评估所需要的时间，他有三种不同的方法可以用于对这 
个过程进行评估。下面有18名评估者利用这三种方法对过程进行了评估，所需时间（小时）分 


别如下 所示： 





第一种方法 

第二种方法 

第三种方法 


68 

62 

58 


74 

73 

67 


65 

75 

69 


76 

68 

57 
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第一种方法 

第二种方法 

第三种方法 

77 

72 

59 

72 

70 

62 


利用《 = 0.05的显著性水平对此进行检验，以确定这三种方法所需要的时间是否存在显著差 
异。 


44. 某个公司有20名工程师，这20名工程师都已经在该公司工作超过三年以上，由他们组成一 
个样本，就这些工程师的管理能力对这个样本进行排秩。其中有一些工程师已经参加过公司 


所举办的管理课程培训，一 

-些参加了当地大学的脱产培训，剩下的则没有参加任何培训科 

目。利用下面的排秩结果和 

异。 

a =0,025 的显著性水平， 

检验他们的管理能力是否存在显著的差 

未参加培训 

参加公司培训 

参加脱产培训 

16 . 

12 

7 

9 

20 

1 

10 

17 

4 

15 

19 

2 

11 

6 

3 

13 

18 

8 


14 

5 


45. 以下是四位教师的课程评估排序，利用 a =0. 05的显著性水平和克鲁斯卡尔_沃利斯检验来 
检验这四位教师的教学能力是否存在显著差异。 


教师 课程评估排序 


Black 

88 

80 

79 

68 

96 

69 




Jennings 

87 

78 

82 

85 

99 

99 

85 

94 


Swanson 

88 

76 

68 

82 

85 

82 

84 

83 

81 

Wilson 

80 

85 

56 

71 

89 

87 





46. 在一项统计课程中，有15名学生期中和期末的考试成缋如下 所示： 

秩秩秩 


期中 

期末 

期中 

期末 

期中 

期末 

1 

4 

6 

2 

11 

14 

2 

7 

7 

5 

12 

15 

3 

1 

8 

12 

13 

11 

4 

3 

9 

6 

14 

10 

5 

8 

10 

9 

15 

13 


计算这一组数据的斯皮尔曼秩相关系数，并利用《 = 10的显著性水平检验其显著相关性 





质量管理统计方法 



统计实例 ：美国 道化学品公司 
20.1 统计过程管理 

控制图 

元控制图：已知过程均值和标准差 
无控制 图：未 知过程均值和标准差 
i ? 控制图 
P 控制图 
np 控制图 
控制图的解释 
20.2 抽样验收 

KAU 有限公司 ： 抽样验收实例 
计算批量验收的概率 
选择抽样验收方案 
多重抽样方案 
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美国道化学品公司* 

弗里波特，得克萨斯州 


美国得克萨斯州道化学品公司 （Dow Chemical 
U. S. A. , Texas Operations) 始建于 1940 年，当年道化 
学品公司在得克萨斯州的 Gulf 海湾购买了 800英亩 
的土地用以建造镁生产设施。如今那片厂址已经扩 
展到超过5000英亩，该公司亦成为世界上最大的石 
油化工复合型企业之一。得克萨斯州道化学品公司 
的产品包括镁、苯乙烯、塑料、肢合剂、溶剂、乙二苯 
和氯气等。一些产品制造出来仅仅是为了用于其他 
产品的生产过程，但是很多其他终端产品则成为医 
药、牙青、狗食、水管、冰箱、奶桶、垃圾袋、洗发水和 
家具等产品的必要的基础性原料。 

得克萨斯州道化学品公司所生产的镁产量超过 
世界总产量的30%。镁是一种很轻的金属，它可以 
用于生产从网球拍到衣物箱等各类的产品。该公司 
的镁事业部是首先利用质量统计管理方法培训其技 
术人员和管理人员的部门，统计质量管理的最初的 
成功应用是在化学处理的过程之中。 

其中的一个应用即为干燥剂的生产。在这个应 
用中，他们每隔一定周期抽取产品作为样本，计算出 

每个样本的平均值，并且将它们记录在一种被称为元 
控制图的控制图上。利用这种控制图，道化学品公司 
的分析专家可以监控产品生产过程，随时预警非正 
常操作。在某个例子中，分析专家开始观测样本均值 


* 作者衷心感谢道化学公司的技术绎理 Clifford 
B . Wilson, 提供这一统计实例。 



统计质量管理使得道化学品公司大幅改进它的生产工艺， 
提髙了 产量。 ©Dan Guravich / C0RBIS. 


的数值，该数值显示有一个操作已经超出了它的设 
计范围。经过对控制图和该操作本身的更深层次的 
观察，分析专家发现误差可以追溯到某一操作人员 
所引起的问题上来。在那个操作员重新培训后所记 
录的 S 控制图上，我们可以看到操作质量已经有了明 
显的改进。 

道化学品公司在它任何应用过统计质量管理的 
地方均取得了质量的大幅改进。他们实现了每年数 
十万美元的成本节约，并且不断地取得新的应用 
发现。 

在本章中我们将阐述诸如道化学品公司所使用 
的元控制图是如何生成的。控制图是统计质量管理 
的一部分，它被称为统计过程管理。我们将针对某 
个样本是否决定接受或拒绝一组项目的情形来讨论 
质量管理的方法。 


美国质量管理协会 （ ASQC ) 对质量是这样定 义的： 质量指的是产品的所有性质和特征，这些 
性质和特征使得该产品能够满足特定的需要。换句话说，质量可以测度一个产品或服务满足顾客 
需求的程度。很多企业意识到在全球经济竞争的今天，他们必须追求高水平的质量。因此，对质 
量的检验和维护有必要在监控和维护方法上加以重视。 
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质量 保证指的是为了达到和维护质量，由某个组织制定的政策、步骤和指导规范的整套系 
统。质量保证有两个重要组成 部分： 质量工程和质量管理。 质量工程 的目标包括了产品设计和生 
产过程，还包括在生产之前识别潜在的质量问题。 质量管理 (quality control , 亦称做质量控制）包 
括进行一系列的检验和测量以确定质量是否达到相关标准。如果质量标准没有被满足，则可以通 
过纠正或者预防活动来达到和维护质量的一致性。就如我们在本章中所要讲述的，统计方法在质 
量管理中是非常有用的。 

传统的生产方法在质量管理中已经被认为是不令人满意的，并且正在被改进过的管理工具和 
技术取代。颇具讽刺意味的是，两个美国顾问 W • 爱德华 • 德明博士 （ W . Edwards Deming ) 和 
约瑟福 • 朱南博士 （ Dr . Joseph Juran ) 在质量管理方面曾帮助过日本人的培训。 

第二次世界大战后， w • 爱德华 • 德明博士成为日本工业顾问。他被尊称为说 

服曰本高层管理者使用统计质量管理方法的人。 

虽然质量是每个人的工作，但德明强调质量必须有管理者来领导。他建立了一个具有14个条 
款的表格，其内容是他认为对管理者至关重要的职责。例如，德明认为管理者必须结束对大量检 
验的 依赖； 必须终止仅凭价格即作出商业行为的 做法； 必须寻求对所有产品生产过程和服务的不 
间断的 改良； 必须培养团队合作精神的 环境； 以及必须消除数量化的目标、口号和确定数量定额 
的工作规范。也许最重要的是管理者必须创造一个工作环境，在这个环境中，质量和生产率的标 
准在任何时候均能得到维护。 

在1987年，美国国会颁布了 107公共法 ： Malcolm Baldrige 国家质量改进法令 （Malcolm 
Baldrige National Quality Improvement Act) 。 Malcolm Baldrige 国家质量奖每年授予那些在质量方面 
有突出成绩的美国公司。这个奖项，以及那些个人，比如爱德华博士和约瑟福博士的观点已经对 
高层管理者很有帮助，他们意识到了提高服务质量和产品质量对他们的企业而言是至关重要的挑 
战 。 Malcolm Baldrige 国家质量奖的获得者包括摩托罗拉、 IBM 、 施乐和联邦快递等公司。在本章 
中，我们阐述在质量管理中所用的两种统计方法。第一种方法，统 计过程管理， 利用了图像显示 
的方法，比如控 制图， 来监控生产过程。应用的目标在于确定生产过程是否能继续或是否需要调 
整以达到期望的质量水平。第二种方法， 抽样验收， 该种方法用于根据在样本中所观测的质量水 
平来决定是否接受或拒绝一组项目时的情形。 


20. 1统计过程管理 

在本节中，我们通过观测一个货物的连续生产过程来研究质量管理步骤。在抽样验收和对产 
品生产进行监控的基础上，生产者将作出 决定： 或者继续生产过程或者调整生产过程，以使所生 
产的产品或生产项目达到能够接受的质量标准。 

虽然在制造和生产过程中会执行严格的高标准，但是机械设备会不可避免地磨损，振动将会 
使机械设备的设置难以调整，所采购的材料亦会有缺陷，人工操作员也会犯操作上的错误。任何 
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一个或其中的全部因素均会导致低质量的产品生产出来。幸运的是，监控产品生产的程序是行之 
有效的，生产的过程可因此而得到调整或修正。 

不断的改进是全面质量管理活动的最重要的概念之一，控制图的最重要的应用 
即为改进过程。 


如果所生产的产品在质量上的差异来源于特定因素 (assignable causes )， 比如工具的磨损、错 
误的机器设置、质量低下的原材料或者操作员的操作失误，那么生产过程应该立即调整或纠正。 
除此之外，如果差异来源于所谓的一般因素 （common causes ), 即发生在材料质量上的随机化差 
异、温度、湿度等诸如此类的因素，这些因素生产者可能无法控制，生产过程也不需要调整。统 
计质量管理的主要目标就在于确定生产产品的质量差异是来源于特定因素还是一般因素。 

无论何时我们发现特定因素，我们均可以断定生产过程处于失控状态。在那种情况下，应该 
采取纠正措施将生产过程调整，重新回到可以接受的质量水平。然而，如果生产过程中的产品差 
异仅仅来源于一般因素，我们可以断定生产过程正处于统计控制状态，或者简单地说处于控制状 
态； 在这种情况下，我们没有必要进行任何改变或者调整。 

过程控制的统计程序是建立在第9章介绍的假设检验方法基础之上。零假设乐代表生产过 
程处于控制状态，备择假 设札代 表生产过程处于失控状态。表 20. 1显示我们有可能得出一个正 
确的 结论： 继续进行一个处于控制状态的过程和调整一个处于失控状态的过程。但是，和其他假 
设检验程序一样，我们有可能发生两类 错误： 第一类错误（调整一个已经处于控制状态的过程）和 
第二类错误（允许一个处于失控状态的过程继续）。 


过程控制程序与本书较早部分所讨论过的假设检验程序密切相关。在本质上， 
控制图为处于控制状态过程这个假设提供了一个不断发展的检验。 

表 20 . 1 统计管理控制的结果 


生产过程的状态 


假设讯为真 

假设讯为假 

过程在控制状态 

过程在失控状态 


继续生产过程 

正确的决定 

第二类错误 

决定 


(允许失控的生 

产过程得以继续) 

调整生产过程 

第一类错误 

(调整控制状态 

纠正决定 


下的过程） 
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控制图 

控制图 （control chart ) 对确定产品中的质量差异是来源于特定因素（失控状态）还是来源于一 
般因素（控制状态）奠定了基础。无论任何时候检测到失控状态，我们都可以进行调整和/或采 
取其他纠正措施，使过程重新回到控制状态。 


根据用连续尺度测量所得的数据而构造的控制图称为变量控制图，5控制图即为 
一个变量控制图。 

控制图可以根据它所包含的数据类型进行分类。如果根据一个比如长度、重量或温度等的变 
量来测量产品质量，那我们可以使用5控制图 Gchart )。 在这种情况下，根据在产品样本中所发现 
的均值来确定是继续还是调整生产过程。为了对所有控制图介绍一些一般性的概念，我们可以先 
考察$控制图的一些特征。 

图 20. 1显示的是5控制图的一般结构。控制图的中线代表的是控制过程的均值，垂直线代表 
的是所感兴趣的变量的测量尺度。每次我们可以从生产过程中抽取一个样本，计算出样本的均值 
无，然后将代表5值的数据点标在控制图上。 


中线 


UCL 

控制状态下的过程均值 


LCL 


时间 - ► 

图 20. 1 i 控制图的一般结构 

以 UCL 和 LCL 为标志的两条线对确定过程是处于控制中还是失控是很重要的，这两条线分 
别被称为控制上限和控制下限。选择它们可以使得当过程处于控制状态时，5的数值位于上下控 
制限之间的概率很大。位于控制限之外的数值可以给出明显的统计证据来表明过程已经失控，我 
们应该采取纠正措施。 

随着时间的积累，越来越多的数据点将被添加到控制图本。数据点的顺序为从左向右，相同 
于样本过程抽取的顺序。在本质上，每当有一个点被添加到控制图上，都代表着我们在进行一次 
假设检验以确定过程是否处于控制状态。 

除了 $控制图之外，可供使用的其他控制图 还有： 监测样本中测量范围的 i ? 控制图（尺 
chart ) ,监测样本中缺陷比率的 p 控制图 （p chart ) ,检测样本中缺陷项数目的 rap 控制图 （np 
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chart ) o 在每种情况下，控制图的基本结构都类似于图 20. 15控制图的格式，都有一条 LCL ， 一 
条中线，一条 UCL 。 这些控制图的主要区别在于所使用的垂直测量尺度不一样，比如在 p 控制图 
中，垂直测量尺度为样本中有缺陷项目的比率，而不是样本均值。在接下来的讨论中，我们将阐 
述元控制图、 i ? 控制图、 p 控制图以 及叩控 制图的结构和使用。 

无控 制图： 已知过程均值和标准差 

为了阐述5控制图的结构，让我们来参考 KJW 包装公司的情形。该公司经营一条填装谷物的 
流水生产线。首先假设 KJW 公司知道生产过程运转正常，即系统处于控制状态，平均填装重量为 

M =16.05 盎司，并且过程标准差为 （7=0. 10盎司。除此之外，假设填装重量是正态分布的。分 
布图如图 20. 2所示。 



过程均值 

图 20. 2 谷物填装重董的分布图 

在第7章里我们阐述过，$的抽样分布可以用于确定一个在控制状态下的过程的5值所期望的 
变异。让我们首先简要复习一下5的抽样分布的性质。首先，5的均值或期望值等于 m ， M 是在生 
产线处于控制状态下的时候的平均装填量。对容量为 n 的样本，5的标准差，也称为均值的标准 
误差，它的计算公式为 



( 20 . 1 ) 


除此之外，因为装填重量呈正态分布，5的抽样分布对任何样本容量而言也呈正态分布。因此， 
无的抽样分布是均值为 M 、 标准差为^的正态分布。图 20. 3显示了这个分布。 
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E ( x ) 

图 20. 3 x 的抽样分布 

如果过程处于控制状态， i 的抽样分布可用于确定什么样的 i 值是合适的，质量管理的通常做 
法是将位于均值上下3个标准差之间的 i 值都认为是合适的。回顾对正态分布的 研究： 它的近似 
99. 7%的数值位于正态分布均值上下土3个标准差之内，因此，如果$的数值位于3 的和 At + 
3 仍之 间，我们可以假设过程处于控制状态。作为总结，我们可以认为的控制图的控制上下限如 
下 所示： 


5控制图的控制上 下眼： 已知过程均值和标准差 


UCL = fi + 3 cr x 

(20.2) 

LCL = /jl — 3 (7n 

(20.3) 


重新考虑 KJW 包装公司的例子，图 20.2 显示了装填重量的过程分布，图 20.3 显示了的5抽样分 
布。假设有一个质量检察员定期抽取6箱作为样本，并且用填装重量的样本均值来确定生产过程 


是处于控制状态还是处于失控状态。根据公式 (20. 1) 我们发现均值的标准差 (7/ /^ = 0. 10/ 

/^" = 0.04。因此，在均值等于 16.05 的情况下，控制限为 UCL = 16. 05 +3(0. 04) =16. 17, 
LCL =16. 05 -3(0. 04) : = 15. 93。图 20. 4是以每10小时为观测周期所取的10个样本组成的控制 
图。为了方便阅读，控制图的下方列有样本标号1—10。 

请注意图20.4,其中第5个样本的均值表明过程正处于失控状态。换句话说，第5个样本的 
均值在 LCL 下方，显示生产过程存在产品差异的可认定原因以及未填装现象的出现。作为结论， 
在这个点上应该进行纠正活动以使生产过程重新回到控制状态5控制图上的其他点均位于上下 
控制限之间，这个事实表明纠正活动是成功的。 

i 控 制图： 未知过程均值和标准差 

在 KJW 包装公司的例子中，我们介绍了在过程均值和标准差已知时怎样构造$控制图。在大 
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样本序号 

图 20. 4 谷物填装过程的 X 控制图 



UCL 


均值状态 


LCL 


多数情况下，我们需要从已处于控制状态下的过程中抽取样本来估计这些数值。比如， KJW 公司 
在处于控制状态下的10天里每天上午和每天下午各选择5箱组成一个随即样本。对每一个子组或 
. 样本，计算它们的样本均值和标准差。然后再用样本均值和样本标准差的总体平均数构造过程均 
值和过程标准差的控制图。 

对过程的均值和差异均保持控制是很重要的。 

在实践中，我们一般使用全距而不是使用标准差来检验过程差异，这是因为全距更加易于计 
算。全距可以应用于构建$控制图的控制上下限，并且计算量很少。为了阐述控制图的构建，我 
们可以参考 Jensen 计算机有限公司所面临的问题。 

Jensen 计算机用品供应有限公闻 ( JGS ) 生产直径为 3. 5英寸的微型计算机软盘。假设在生产 
过程开始之后，第一个小时、第二个小时……分别抽取由5张软盘所组成的随机样本，直到抽取 
了 20个样本为止。表 20. 2给出了每一个样本中磁盘的直径和样本均值％以及全距 i? jD 

表 20. 2 JENSEN 计算机用品供应公司示例数据 

样本均值样本全距 
^ Rj 

3. 503 0 3.506 5 0.013 5 

3. 503 1 3. 502 6 0. 036 8 

3. 496 9 3. 497 8 0. 023 3 

3. 483 7 3. 500 0 0. 031 6 

3.480 1 3. 495 1 0.034 0 

3.506 0 3. 501 2 0. 009 9 

3.504 4 3. 493 5 0. 021 3 

3.509 4 3.497 0 0. 026 4 

3.500 4 3. 509 0 0. 027 0 



CD 光盘数据 
JENSEN 


样本 



观测值 


序号 





1 

3. 505 6 

3. 508 6 

3.514 4 

3. 500 9 

2 

3.488 2 

3. 508 5 

3.488 4 

3. 525 0 

3 

3.489 7 

3.489 8 

3. 499 5 

3.513 0 

4 

3.515 3 

3.512 0 

3. 498 9 

3.490 0 

5 

3. 505 9 

3.511 3 

3.501 1 

3. 477 3 

6 

3. 497 7 

3. 496 1 

3. 505 0 

3. 5014 

7 

3. 491 0 

3.491 3 

3. 497 6 

3. 483 1 

8 

3. 499 1 

3. 485 3 

3.483 0 

3. 508 3 

9 

3. 509 9 

3.516 2 

3. 522 8 

3. 495 8 


样本均值 IX 
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(续表) 


样本 



观测值 



样本均值 

样本全距 

序号 







Rj 

10 

3.488 0 

3.501 5 

3.509 4 

3.510 2 

3.5146 

3. 504 7 

0. 026 6 

11 

3.488 1 

3. 488 7 

3.514 1 

3.517 5 

3.486 3 

3. 498 9 

0.0312 

12 

3. 504 3 

3. 486 7 

3. 494 6 

3. 501 8 

3. 478 4 

3. 493 2 

0 ‘ 025 9 

13 

3. 504 3 

3. 476 9 

3. 494 4 

3.501 4 

3.490 4 

3. 493 5 

0. 027 4 

14 

3.500 4 

3. 503 0 

3. 508 2 

3. 504 5 

3. 523 4 

3. 507 9 

0. 023 0 

15 

3.484 6 

3. 493 8 

3. 506 5 

3. 508 9 

3. 501 1 

3. 499 0 

0. 024 3 

16 

3.514 5 

3. 483 2 

3.518 8 

3. 493 5 

3. 498 9 

3. 501 8 

0, 035 6 

17 

3.500 4 

3. 504 2 

3. 495 4 

3. 502 0 

3,488 9 

3. 498 2 

0.015 3 

18 

3. 495 9 

3. 482 3 

3. 496 4 

3. 508 2 

3. 487 1 

3. 494 0 

0. 025 9 

19 

3. 487 8 

3.486 4 

3.496 0 

3. 507 0 

3. 498 4 

3. 495 1 

0. 020 6 

20 

3. 496 9 

3.5144 

3. 505 3 

3. 498 5 

3.488 5 

3. 500 7 

0. 025 9 


过程均值的估计值 m 由总体样本均值给出。 


总体祥本均值 ^ 

= X\ +X2 + + Xk 

X ~ k 

(20.4) 

式中 Xj 第^/个样本的均值， j -1 ， 2,… ， k; 

h ——样本序号。 


对表 20. 2中的 JCS 数据，总体样本均值 $ = 3. 499 5。这个值即为$控制图的中线。 
距，以尺表示，即每一个样本里面的最大值和最小值之间的差。平均全距如下所示 

每个样本的全 

• 

• 

平均全距 


7 + i ?2 + … + 

^ k 

(20.5) 

式中 Rj ——第 ） 个样本的全距， 卜 \ ， 2, …， k' 
k ——样本序号。 


对表 20. 2中的 JCS 数据，平均全距及 =0.025 3。 

在前面的章节中，我们阐述了控制图的上下限，它们为 


x±3i^= 

V n 

(20.6) 


因此，为了构造 S 控制图的控制限，我们需要估计过程的标准差^的值， cr 的估计值可以通过分 
析全距数据得出。 

已经 证明： 过程标准差 o ■的一个估计量为平均全距除以山， d 2 为一个常数，仅取决于样本 
大小即 


cr 的估计值=^ (20.7) 
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% = 3. 499 


3.515 


3. 0SL = 3.514 


美国材料检验学会 （ ASTM ) 数据图表述及控制图分析的工具手册 （Manual on Presentation of 
Data and Control Chart Analysis ) 给出了 A 的数值，见附录 B 中的表11。例如，当 w = 5 时， A : 

2. 326,因此 o ■的估计值为平均全距除以 2. 326。如果我们将 c 代入公式 (20. 6) ，则5控制图 
的控制限可以写成如下 形式： 

= ± 3 _^^i = = 土^^二完土 a 云 (20.8) 

V n n 

请注意， A 2 = 3/( 山/7)是一个仅仅取决于样本大小的常数。糸的数值在附录 B 的表11中给出。 
对；1 = 5,枭=0.577。因此，控制图的控制限为 

3. 499 5 ± (0. 577)(0. 025 3) : 3. 499 5 ± 0. 146 

因此， UCL = 3.514, LCL = 3.485 0 

图 20. 5是 Jensen 计算机用品供应公司示例的$控制图。我们用表 20. 2中的数据和 Minitab 控 
制图来构建它。中心线为总体样本均值 $==3. 499。控制上限 ( UCL ) 为3.514。 Minitab 用标记 3. 0 SL 
来表示 UCL , g 卩5上方的3个 o ■限或3个标准差 ( SL )。 控制下限 （ LCL ) 为 3. 485,记为 -3.0 SL 
或5下方3个 o •限。$控制图显示了 20个样本均值随时间变动的散布情况。由于所有20个样本 
均值均在控制限范围之内，这意味着 Jensen 公司的生产过程是处于控制中的。这个控制图现在可 
以用来在不断发展的基础上监控过程均值。 


485' 


-3. 0SL = 3.485 


5 


15 


10 

样本序号 

图 20. 5 Jensen 计算机用品供应公司示例的无控制图 


20 


及控制图 

我们现在考察全距控制图 （ i ? 控制图），用它可以控制一个过程的差异。为了建立及控制图， 

我们有必要将样本的全距作为一个自带均值和标准差的随机变量来考察。平均全距及给出了这个 
随机变量的均值的一个估计值。除此之外，可以证明全距标准差的估计值为 



05 


—4 » 

49 


样本均值 
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u. uun 


5 10 15 20 

样本序号 

图 20. 6 Jensen 计算机用品供应公司示例的沢控制图 


3.0 SL =0. 053 44 


R =0. 025 27 


-3. OSL = 0. 000 


o - r = d ，3^~ (20. 9) 

0,2 

式中，山和 A 是仅取决于样本容量的 常数； 在附录 B 的表11中我们给出了 A，A 的值。因此， 
/?控制图的 UCL 由下式给出 



^ + 3^ = ^(1 +3-^-) 

(20.10) 

LCL 为 

R -2> a R = R {\-2> Y ) 

(20.11) 

如果我们令 

D4 = 1 + 3 -y - 
d 2 

(20.12) 


Z) 3 = 1 - 3 -j- 

di 

(20.13) 


对控制图，我们可以将其上下限表示为 

UCL = RD 4 (20.14) 

LCL = RD 3 (20.15) 

认和 D 4 的数值也在附录 B 的表11中给出。71 = 5,认= 0，认= 2. 115,因此,根据云=0.0253,控制 
限为 

UCL = 0. 025 3(2. 115) =0. 053 5 
LCL = 0. 025 3(0) =0 

图 20. 6显示的是 Jensen 计算机用品供应公司示例的控制图。我们利用表 20. 2中的数据和 
Minitab 的控制图来构建它。控制图的中心线为20个样本全距的总体平均数云 = 0.025 27。 UCL 为 
0.053 44或者云上方3个 o •限 (3.0SL)。LCL 为 0. 0或者云下方3个 o •限。控制图显示了 20个 



6 5 4 3 2 1c 

o o o o o o < 

0.0.0.0.0.0.C 

样本均值5 
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样本的全距随时间变动而变动的分布情形。因为所有20个样本全距均在控制限内部，我们可以确 
定这个生产过程在抽样期间保持在控制状态下。 
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E ( p ) 

图 20. 7戶的抽样分布图 


为了给 p 控制图建立控制限，我们遵循给5控制图建立控制限的同样步骤。即，当过程处于 
控制状态时，控制图的控制限为缺陷比例的上下3个标准差或标准误差，因此，我们可以得到下 
面的控 制限： 


P 控制图的控制眼 



UCL = 

P + 3 (Tp 

(20.17) 

LGL = 

p — 3 (Tp 

(20.18) 

已知/> =0.03 和样本容量 n = 200, 由公式 (20. 16) 可得标准误差为 


CTp = 


10 . 03(1 -0, 03) 

V 200 


= 0.012 1 


因此，控制限为 UCL = 0. 03+3(0.012 1) =0.066 3, LCL = 0. 03-3(0.012 1) = - 0.0063。由于 
LCL 为负数，因此在控制图中被设为零。 

图 20. 8是邮件分拣过程的控制图。所标出的点为从过程中抽取的信件样本中发现的有缺陷的 
样本比率，由于所有的点都在控制限之内，因此没有任何证据表明分拣过程处于失控状态。事实 
上，控制图表明该过程处于控制状态下并且应该继续运转。 

如果无法知道一个处于控制状态下的过程的缺陷产品比例，那么，我们应该通过样本数据来 
估计它。例如，假设从一个处于控制状态的过程中抽取 M 个不同的样本，每一个样本容量为 n 。 
然后确定出每个样本中缺陷产品的比例。将收集的所有资料看成是一个大样本，我们可以确定出 
所有数据的平均缺陷产品比例，这个数值即可用于确定 p 的估计值，的估计值指的是在控制状 
态下的过程的缺陷产品比例。请注意，/>的估计值同时也有助于我们去估计比率的标准误差。然 
后我们可以建立控制上下限。 
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UCL = 0. 066 3 


控制状态下过程的 
缺陷百分比 


LCL =0 


图 20. 8 邮件分拣过程的缺陷产品比率的 p 控制图 


^控制图 

叩控制图是对样本中缺陷产品数量而构造的控制图。在这里面，/ I 是样本容量， p 是当过 
程处于控制状态下时所发现的缺陷产品的概率。不管样本容量有多大，当叩彡5、 n ( l - p )^5 
时，在一个样本容量为 n 的样本中所发现的缺陷产品数量的分布可以近似于均值为叩，标准方 

差为 - p ) 的正态分布。因此，对邮件分拣的例子 ， n = 200, /)=0.03，在一个200封信的 
样本中所发现的错误投递信件的数量可以近似于一个均值为 200(0. 03)=6, 标准方差为 

V 200(0. 03)(0. 97) =2.412 5 的正态分布。 


当过程处于控制状态下时 ，叩 控制图控制限为所观测到的缺陷产品平均数量的上下3个标准 
差。因此，我们可以得到如下所示的控 制限： 


np 控制图的控制眼 




UCL = np +3 yjnp ( 1 - p ) 

(20.19) 


LCL : np - 3 4 np (1 - p ) 

(20.20) 


对邮件分拣过程的例子， p =0. 03, 71 = 200,控制限为 UCL = 6 + 3 (2.412 5) =13. 237 5, LCL = 
6- 3(2. 412 5) = - 1.237 5。当 LCL 为负时， LCL 在控制图中设为零。因此，如果被错误投递到 
别的线路的信件数量多于13时，我们可以断定过程已经失控。 


np 控制图所提供的信息等同于 p 控制图所提供的 信息； 惟一的区别在于 np 控制图是所观测 
到的缺陷产品数量的分布图，而 p 控制图是所观测到的缺陷产品比率的分布图。因此，如果我们 
在控制图的基础上可以断定某个特定过程处于失控状态，则我们也可以在 np 控制图的基础上 
断定该过程失控。 
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控制图的解释 

根据控制图中的点的位置和分布轨迹，我们可以确定一个过程是否处于统计控制状态之中， 
而且判断错误概率很小。过程有可能处于失控状态的最初迹象是数据点落到控制限之外，例如图 
20.4 中的点5。发现这样的数据点是在统计上证明过程失控的 证据； 在这些情况下，我们应该立 
即釆取纠正措施。 


控制图可以识别可指明原因的变化。管理人员必须授权进行消除可指明原因的 
纠错行动，以将生产过程带回控制状态。 

除了数据点在控制限之外这种迹象，某些在控制限之内的数据点的分布轨迹也可以是质量控 
制错误的预警信号。例如，假设所有的数据点均在控制限之内，但是有大量的数据点处于控制中 
心线的一侧，这种分布就有可能表明设备出问题了，或者原材料变化，或者出现了其他质量上可 
指出的变化。我们应该对生产过程进行仔细的调查以确定质量是否发生了变化。 

另一个观测控制图的分布轨迹是某些因素随时间推移而发生的逐渐变化或趋势。例如工具的 
磨损、制造零件的尺寸逐渐偏离设计水平、温度或湿度的逐渐变化、设备的整体性老化、污垢的 
堆积、操作员的疲劳，这些都有可能反映控制图中的变化趋势。如果一行中有六七个数据点呈现 
增长或下降趋势，就应该引起关注，即使这些数据点均处于控制限之内。当这种情况发生时，我 
们应该检查生产过程以防备质量上可能的变化或转变，同时有必要采取纠正措施将过程带回到控 
制状态下。 



即使所有的数据点都在上下控制限之内，过程仍然有可能处于失控状态。样本 
数据点的趋势或在中心线上下的长期趋势也可以显示过程处于失控状态。 




1. 元控制图的控制限取决于平均全距的数值，这 
些控制限没有很多意义，除非过程变异处于 
控制状态之中。在实践中，尺控制图通常在元 
控制图前 构造； 如果丑控制图表明控制变异 
处于控制下，然后再去构造无控制图 。 Minitab 
的 X _ R 选项可以同时给出$控制图和/?控 
制图。在附录 20.1 中描述了这些步骤的过 


程。 

2. np 控制图可用于在过程中监控有缺陷产品的 
数量。摩托罗拉的6个 （7 质量水平法则确立了 
缺陷产品数量的比率不超过 3.4 xl 0- 6 的目标 

(American Production and Inventory Control ， Ju ， 
ly 1991)。 这个目标意味着 p = 0. 0000034。 
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方法 

1. 某过程处于控制状态下，均值 m =12.5， 标准差为 a - = 0. 8 0 

a . 如果样本容量为4，试构造5控制图。 

b . 如果样本容量为8和16，试构造$控制图。 

c . 当样本容量增加时，控制图的控制限将会有什么变化？试讨论其合理性。 

2. 从一个处于控制状态下的过程中抽取25个样本，每个样本容量均为5,所有收集的数据总计为 
677.5 磅。 

a . 当该过程处于控制状态时，试求过程均值的估计值（以磅为单位）。 

b . 假设在该过程处于控制状态时，过程标准差为 0.5, 过程均值为 （ a ) 中所估计的结果，如果 
样本容量为5,试建立该过程的控制图。 

3. 某过程目前运转比较令人满意，检查其中25个样本，每个样本有100项，在这25个样本中， 
总共有135项有缺陷。 

a . 当该过程处于控制状态时，试求缺陷产品项的估计值。 

b . 如果样本容量为100,试求该统计过程的比率的标准误差。 

c . 计算该控制图的上下控制限。 

4 从一个过程中抽取20个样本，每个样本容量为8,结果为支^=28.5, 云 = 1.6，试计算 

该过程的$控制图和及控制图的.上下控制限。 

应用 

5. 温度测量某个生产过程的产品，当该过程处于控制状态时，过程均值从=128.5,标准差 = 
0.4。 

a . 如果样本容量为6，试构造5控制图。 

b . 利用下面给出的样本值，判断该过程是否处于控制状态。 

128. 8 128.2 129. 1 128.7 128.4 129.2 

c . 利用下面给出的样本值，判断该过程是否处于控制状态。 

129.3 128.7 128.6 129.2 129.5 129.0 

6. 一个质量管理过程监控每;箱的洗涤剂重量，控制限设为 UCL = 20. 12盎司， LCL =19.90 盎司， 
对于抽样和抽验过程，样本容量为5。试求该制造过程的过程均值和过程标准差。 
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7. Goodman 轮胎和橡胶公司定期在模拟道路情形下检验它的轮胎磨损情况，为了研究和控制生产 
过程，从不同班组中抽取20个样本，每个样本包含3个轮胎，抽样数据如下。假设这些数据 
是在生产过程处于控制状态下时抽取的，试建立和元控制图。 



CD 光盘数据 
Tires 


样本 


轮胎磨损 + 


1 

31 

42 

28 

2 

26 

18 

35 

3 

25 

30 

34 

4 

17 

25 

21 

5 

38 

29 

35 

6 

41 

42 

36 

7 

21 

17 

29 

8 

32 

26 

28 

9 

41 

34 

33 

10 

29 

17 

30 

11 

26 

31 

40 

12 

23 

19 

25 

13 

17 

24 

32 

14 

43 

35 

17 

15 

18 

25 

29 

16 

30 

42 

31 

17 

28 

36 

32 

18 

40 

29 

31 

19 

18 

29 

28 

20 

22 

34 

26 


* 单位： 百分之一 英寸。 

8. 在某个生产过程正常运转或出于控制状态下的几个星期中，抽取了 20个样本检验断裂强度， 
每个样本包含150包合成材料网球线，在对这3 000包产品检验中，总共有141包没有达到制 
造商的要求。 

a . 当该系统处于控制状态下，缺陷产品比率的估计值是多少？ 

b . 计算/>控制图的上下限。 

c . 如果检验150包产品，发现其中12包产品有缺陷，根据 ( b ) 中的计算结果，对这个过程应 
该得出什么推论？ 

d . 计算 rap 控制图的上下控制限。 

e . 利用 （ d ) 中的结果回答 （ c ) 中的问题。 

f . 在这种情况下应该倾向于使用什么样的控制图？解释原因。 

9. 汽车厂商为几种型号的汽车提供活塞产品，在生产过程处于控制状态下时，选择了 20个样 
本，每个样本包含200个活塞，在样本中所发现的缺陷产品的数量如下 所示： 
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8 15 


8 10 6 4 5 7 8 12 

14 10 10 7 5 8 6 10 4 8 

a . 活塞的生产过程处于控制状态时，缺陷产品的比率的估计值是多少？ 

b . 假设每个样本有200个活塞，建立活塞生产过程的 p 控制图。 

c . 利用 （ b ) 中的结果，假如在一个有200个活塞的样本中，发现有20个产品有缺陷，可以得 
出什么结论？ 

d . 计算 np 控制图的上下控制限。 

e . 利用 （ d ) 中的结果回答 （ c ) 中的问题。 


20.2 抽样验收 

在抽样验收中，我们需要研究的项目可能是尚在装运的原材料或采购的产品部件，或者是从 
最后生产线上下来的成品。假设我们需要在特定产品质量特性的基础上决定是否接受或拒绝一组 
产品项目。在质量管理术语上，一组项目 称为批 ( lot ) ， 抽样验收 (acceptance sampling ) 就是在对一 
批项目的样本进行检查的基础上，然后再作出接受或拒绝决定的统计方法。 

抽样验收的一般步骤如图 20. 9所示。接受一批产品后，从中抽取样本以供检查。将抽样的结 
果与特定质量特性进行比较。如果这些质量特性得到满足，这批产品就被接受，并送往生产线或 
装船运送给客户。如果该批产品被拒绝，管理人员必须决定对它作出合理的 处置： 在一些情况 
下，可能决定保留该批产品，但是应该将无法接受的或者失效的产品剔 除掉； 在另一些情况下， 
这批产品被退回供货商处，且所有费用均由供货商支付，这批额外的工作量和支出将促使供货商 



图 20. 9 抽样验收步骤 
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供应高质量的批量 产品； 最后，如果这些批量产品中包含产成品，那么这些产品必须废弃或重新 
加工以达到可以接受的质量标准。 

抽样验收在100%监督时具有如下 优势： 

1. 通常费用 较小； 

2. 由于较少地监督和处理，因而产品损坏 较少； 

3. 需要较少的监 督员； 

4. 如果必须要利用破坏性检验时，这是惟一可行的办法。 

抽样验收的统计程序以第9章所介绍的假设检验方法为基础。零假设与备择假设表述 如下： 

Ho ： 高质量批 
H a ： 低质量批 

表 20. 3是假设检验程序的结果，请注意正确的结论意味着接受一批高质量产品和拒绝一批低 
质量产品。然而，同其他假设检验程序一样，我们应该知道有可能存在第一类错误（拒绝一批高 
质量产品）和第二类错误（接受一批低质量产品）。 

表 20. 3 抽样验收结果 


批量产品状态 




讯成立 

讯不成立 


接受该批产品 

正确结论 

第二类错误 
(接受不合格质 

结论 



量产品） 


拒绝该批产品 

第一类错误 

(拒绝合格质量产品） 

正确结论 


第一类错误对批量产品的生产者造成一定的风险，因此称 为生产者风险 ( producer ’ srisk )。 例 
如，若生产者风险为0.05,那就意味着质量合格的批量产品被拒收的概率为5%。另一方面，第 
二类错误的概率对批量产品的消费者造成了风险，因此被称 为消费者风险 （ consumer’s risk )。 例 
如，若消费者风险为0.10,则表明错误接受一批低质量产品的概率为10%,并且这批低质量产 
品有可能被用于生产或装运给消费者。抽样验收程序的设计者可以控制生产者风险和消费者风险 
的规定值。为了阐述具体做法，我们可以考察 KALI 有限公司所面临的问题。 
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KALI 有限 公司： 抽样验收实例 

KALI 有限公司是一 '家 家庭用品制造商，拥有一系列产品商标。然而， KALI 有限公司并不生 
产其产品所用的每一个部件。一些产品部件直接从供货商处采购。例如， KAIX 有限公司所生产的 
家庭用空调的一个部件是超载保护器，它可以在空调压缩器过热时自动关闭它。如果过载保护器 
运转不正常，空调压缩器有可能被严重损坏，因此， KAU 有限公司很关注过载保护器的质量。确 
保质量的一个方法是测试所接受的每一个产品，这种方法被称为100%检验法。但是，如果要检 
测过载保护器的功能，必须对设备进行长时间的运行检验，检验代价昂贵。所以， KALI 有限公司 
不可能检测它所接受的每一个过载保护器。 

KALI 有限公司采用抽样验收的方法来监控过载保护器的质量，抽样验收的方法需要 KALI 有 
限公司的质量监控员从每一批接受的产品中抽取样本并检验。如果在抽样产品中仅仅检测到极少 
的缺陷产品，则该批量产品质量合格可以验收。相反，如果在样本中发现大量的缺陷产品，则该 
批量产品有可能质量低下而被拒收。 

抽样验收方案包含样本容量 n 和验收准则 c。 验收准则 （acceptance criterion) 指的是在样本中 
所发现的缺陷产品的最大数量，在该数量下样本依然是可以接受的。例如，对 KALI 有限公司， 
假设我们从刚刚运抵的产品中每次抽取15件组成样本，除此之外，质量管理人员声明仅在没有发 
现缺陷产品的情况下才接受该批产品。在此种情形中，质量管理人员所建立的抽样验收方案即为 
71 = 15， c=0o 

这个抽样验收方案对质量监控人员来说是很容易执行的。质检员只需要抽取15件产品组成样 
本，对每一件产品进行检测，并根据以下的决策法则得出结论 即可： 

• 如果没有发现缺陷产品则接 受该批 产品。 

• 如果发现一个或多个缺陷产品则 拒绝接受该批 产品。 

在执行抽样验收方案之前，质量管理人员需要估计该方案的风险或出错概率。只有在生产者 
风险（第一类风险）和消费者风险（第二类风险）均控制在合理的水平时，这个方案才能得到 
执行。 


计算批量验收的概率 

分析生产者风险和消费者风险的关键之处在于 “What-if?” 类型的分析，即我们假设一批产 
品中缺陷产品的百分比，并在给定样本验收方案下计算接受该批产品的概率。通过改变缺陷产品 
的假设百分比，我们可以检验抽样方案关于两类风险的效果。 

假设我们已经接受到大批量的过载保护器，而且其中有5%的过载保护器质量上有缺陷。在 
n = 15，c = 0 的抽样验收方案下，我们接受该批产品的概率有多大？由于每个过载保护器被检测 
的结果要么是有缺陷，要么是没有缺陷，而且产品批量的容量很大，因此，对于容量为15的样 
本，其有缺陷产品的数量服从二 项概率分布。 二项概率函数在第5章中介绍过，形式如下 所示： 
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抽祥验收的二顶概率函数 



，⑴〜(二 〆 h 卜） 

(20. 21) 

式中 71 —— 

-样本容量； 


P 

-批量中缺陷产品的 比率； 


X 

-样本中缺陷产品的 数量； 


f ( x )~ 

样本中有％个缺陷产卩卩的概率。 



对于 KALI 有限公司的抽样验收方案 ， n = 15; 因此，对有5%缺陷产品的批量 （ p =0.05) , 
我们可以得到 

fix ) = 05 ) x ( 1 -0. 05 ) (,5 ( 20 . 22 ) 

利用公式 (20. 22)，/(0)将给出过载保护器有缺陷产品数量为零并被接受的概率。在使用公式 
(20. 22) 中，有0! =1,因此 

/(0) = o!(i5 5 -o)! (a 05 )0( 1 * a 05 )05 " 0> 

= oKi5)T (0 - 05)0(a 95 ),5 

= (0. 95) 15 

= 0. 463 3 

我们现在知道，在 n = 15, c =0 的抽样方案中，对有缺陷产品的概率为5%的批量的接受概率 
为0.4633。因此，对有5%缺陷产品的批量的拒绝概率必定为相应的1 - 0.4633=0.5367。 

利用二项概率的计算表（见附录 B 的表5)，可以在确定批量接受的概率时减少很多计算工作 
量。表 20. 4中列出了 71 = 15和71=20的部分二项概率，利用这个表，如果对缺陷产品为10%的 
批量和71 = 15, c = 0 的抽样验收方案，接受批量的概率为 0.205 9。在表 20. 5中我们给出了根据 
n = 15， c =0 的抽样验收方案，接受缺陷产品比例分别为1%，2%, 3%, …" •的批量的概率。 

根据表 20.5 中的概率数据，将批量接受的概率和有缺陷产品的比例作为因变量命自变量绘成 
图 20. 10。这个图形，或曲线，被称为 n = 15, c = 0 抽样验收方案的抽样 验收特性曲线 
[(operating characteristic ( OC ) curve ] 0 

也许我们应该考察其他的样本验收方案，它们有不同的样本容量 n 和/或不同的验收准则。 
首先考察样本容量保持15不变，但是验收准则从 C =0 上升到 c = l , 即我们在样本中发现的缺陷 
产品数为零或一个时都可以接受该批产品。对缺陷产品比例为5%的批量 （ P =0.05) ，表 20. 4 
显示 n = 15, p =0.05，/(0) =0.463 3，/(1) =0.365 8。因此，对 n = 15 ，c = l 的方案，缺陷比例 
为5%的批量被接受的概率为 0. 463 3 +0. 365 8=0. 829 1 0 

继续我们在图 20. 11中的计算，图 20. 11描述了对 KAU 有限公司例子的其他4种抽样验收 
特性曲线。分别考察样本容量为15和20的样本，我们发现，不论批量中有缺陷产品的比例如 
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表 20. 4 样本容量为15和20的部分二项概率 




P 


n 

X 

.01 

.02 

.03 

.04 

.05 

.10 

,15 

.20 

.25 

15 

0 

. 860 1 

.738 6 

• 633 3 

• 542 1 

• 463 3 

.205 9 

• 087 4 

.035 2 

.013 4 


1 

,130 3 

.226 1 

.293 8 

.338 8 

.365 8 

.343 2 

.231 2 

• 131 9 

. 066 8 


2 

.009 2 

.032 3 

, 063 6 

.098 8 

. 134 8 

.266 9 

.285 6 

• 230 9 

. 155 9 


3 

,000 4 

.002 9 

• 008 5 

.017 8 

• 030 7 

. 128 5 

.2184 

.250 1 

.225 2 


4 

• 000 0 

• 000 2 

• 000 8 

.002 2 

• 004 9 

.042 8 

• 1156 

. 187 6 

.225 2 


5 

• 000 0 

.000 0 

.000 1 

.000 2 

• 000 6 

.010 5 

.044 9 

. 103 2 

. 165 1 


6 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.001 9 

.013 2 

.043 0 

.091 7 


7 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 3 

.003 0 

.0138 

.039 3 


8 

.000 0 

.000 0 

.000 0 

• 000 0 

,000 0 

• 000 0 

,000 5 

• 003 5 

.013 1 


9 

.000 0 

.000 0 

• 000 0 

• 000 0 

• 000 0 

• 000 0 

.000 1 

.000 7 

.003 4 


10 

.000 0 

■ 000 0 

.000 0 

.000 0 

• 000 0 

• 000 0 

.000 0 

.000 1 

.000 7 

20 

0 

‘ 817 9 

. 667 6 

.543 8 

.442 0 

.358 5 

• 121 6 

.038 8 

.011 5 

.003 2 


1 

. 165 2 

.272 5 

• 336 4 

• 368 3 

.377 4 

.270 2 

. 136 8 

.057 6 

.021 1 


2 

• 015 9 

• 052 8 

.098 8 

. 145 8 

. 188 7 

■ 285 2 

.229 3 

. 136 9 

.066 9 


3 

.001 0 

• 006 5 

.018 3 

.036 4 

.059 6 

• 190 1 

.242 8 

.205 4 

. 133 9 


4 

.000 0 

.000 6 

.002 4 

.006 5 

.013 3 

.089 8 

. 182 1 

• 218 2 

. 189 7 


5 

. 000 0 

.000 0 

.000 2 

• 000 9 

.002 2 

• 031 9 

. 102 8 

. 174 6 

.202 3 


6 

.000 0 

.000 0 

.000 0 

.000 1 

• 000 3 

• 008 9 

.045 4 

. 109 1 

. 168 6 


7 

. 000 0 

.000 0 

• 000 0 

• 000 0 

.000 0 

.002 0 

.016 0 

.054 5 

. 1124 


8 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

• 000 4 

.004 6 

.022 2 

• 060 9 


9 

. 000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 1 

• 001 1 

• 007 4 

.027 1 


10 

. 000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 2 

.002 0 

• 009 9 


11 

. 000 0 

.000 0 

.000 0 

.000 0 

■ 000 0 

.000 0 

.000 0 

.000 5 

.003 0 


12 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 1 

.000 8 


何，71 = 15, c = l 抽样方案给出的接受这批产品的概率 最大； n = 20, c = 0 的抽样方案给出的接受 
概率最小，但该方案却给出了拒绝这批产品的最大概率。 


表 20. 5 /! = 15 , c = 0 的抽样验收方案对 KALI 问题的概率 

批量中的缺陷百分比 
1 

2 

3 

4 

5 
10 
15 
20 
25 


接受批量的概率 
0‘ 860 1 
0. 738 6 
0. 633 3 
0. 542 1 
0. 463 3 
0. 205 9 
0. 087 4 
0. 035 2 
0.013 4 
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10 15 

批量中的缺陷百分比 

图 20 . 10 /i = 15 , c =0 的抽样验收方案的特性曲线 


25 



20， c = 1 


5 


10 


15 


20 


25 


批量中的缺陷百分比 



o o o o o 

7 6 543 
* • • • 1• 
o o o o o 


接受批量的概率 



o 



o o o o 

7 6 5 4 
•*•■ 
o o o o 



接受批量的概率 


4 种抽样验收方案的特性曲线 
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«——生产者风险（发生第一类错误的概率) 
P —消费者风险（发生第二类错误的概率) 


10 


15 


20 


25 


P 。 p \ 

批量中的缺陷百分比 

m 20 . 12 71 = 15 , 的抽样特性曲线 


选择抽样验收方案 

现在我们已经掌握如何使用二项概率分布，根据一个给定的缺陷产品比例来计算接受批量的 
概率，那么我们可以选择 n 和 c 的数值来为实践应用确定抽样验收方案。为了做到这点，管理人 
员必须为批量中缺陷产品的比率指定两个 变量： 一个变量以/>。表示，用来控制生产者 风险； 另一 
个变量，以 p 表示，将被用于控制消费者风险。 

为了阐明具体做法，我们可以使用如下 标记： 

a ——生产者 风险； 缺陷产品率为外的批量被拒收的 概率； 

P ——消赀 K 风险；缺陷产品率为的批量被拒收的概率。 

对 KALI 问题，假设管理人员指定 p 。 =0.03, p , =0.15。由图 20. 12中= 15, c = 0 的抽样特性曲 
线我们可以看到 / ? Q = 0.03, 这意味着生产者的风险近似于1 -0.63 =0.37， p =0.15 表明消费者 
风险近似于0.09。 因此， 如果管理人员愿意接受缺陷产品率为3%的批量的概率为 0.37 (生产者 
风险）和接受缺陷产品率为15%的批量的概率为 0.09( 消费者风险），则应该可以接受 ai = 15 和 
c = 0 的抽样验收方案。 

但是，假如管理人员要求生产者风险 ct = 0. 10,消费者风险/3 = 0.20,我们可以看到现在 
n = 15, c = 0 的抽样验收方案在消费者风险方面比所希望的要小得多，但是在生产者风险方面却比 
所希望的要大得多 。 a =0.37 的事实表明，拒收缺陷产品率为3%的批量的概率为37%。由此可 
见生产者风险过高，我们应该考虑制定一个新的抽样验收方案。 



8 000000000 
987654321 

••••••■• I • 


接受批量的概率 
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根据图 20. 11 中的 po = 0. 03, a = 0. 10, p\ = 0. 15, = 0. 20, 可以 表明 ？ i = 20 ， c = 1 的抽样验收 

方案最接近于同时满足生产者风险和消费者风险的需要。本节末的练习13将会要求你计算^ = 
20, c = l 的抽样验收方案的生产者风险和消费者风险。 

正如本节所介绍的，在决定抽样验收方案时，我们应该考虑一些计算或抽样验收特性曲线， 
并结合考虑生产者风险和消费者风险。幸运的是，已经出版了一些抽样验收表。例如美国军用标 
准表， MIL - STD -105 D , 在设计抽样验收方案时提供了很多有用信息。在有关质量管理的更为高 
级的教材中描述了这些表的使用。更为高级的教材也讨论了抽样成本在确定最为适合的抽样方案 
中的作用。 

多重抽样方案 

我们对 KALI 问题所介绍的抽样验收程序是一 次抽样 方案，它被称为一次抽样方案是因为仅 
仅使用了一个样本或仅有一个抽样阶段。在确定了样本中缺陷产品数量后，必须作岀接受或者拒 
绝该批产品的结论。另一种可供选择的抽样方案是 多重抽样方案 (multiple sampling plan ) ，其中涉 
及到两次或多次抽样阶段。在每一个阶段都有三种可能的 结论： 停止抽样并接受该批产品，停止 
抽样并拒收该批产品，或者继续抽样。虽然这样操作比较复杂，但是根据相同的 a 、 值，多次 
抽样方案所得结果的样本总容量比一次抽样方案要小。 

图 20. 13是二阶段抽样方案，或者双重抽样方案的流程图。一开始选择 m 个产品项组成样 
本，如果缺陷产品数量 a 少于或者等于则接受该批产品。如果 x , 大于或者等于 c 2 , 则拒收 
该批产品。如果 A 位于 O 和 C 2 之间即^<^,<02 ,则选择叱个产品项重新组成样本。确定第一 
份样本缺陷产品数量^和第二份样本缺陷产品数量&的总和，如果^ C3 , 则接受该批产 

品； 否则拒绝该批产品。双重抽样验收方案的建立显然更加复杂，因为样本容量 m 和 m 以及接 
受准则的数值 c ,、 （： 2 和 c 3 必须同时满足生产者风险和消费者风险的双重要求。 



1. 抽样验收中所使用的二项概率分布是以大批 
量的假设为基础的。如果样本容量较小， 
则应用超几何分布较为适宜。质量管理研 
究领域的专家认为，当样本容量 n 至少为 
16，所抽样的产品总数至少为样本容量的 
10倍，并且 p 值小于 0.1 时，泊松分布是 
抽样验收的较为合适的分布。对于大样本 
容量，我们可以使用正态分布近似模拟二 
项概率分布。 

2. 在 MIL _ ST -105 D 的抽样表中， p Q 被称为 


可接受质量水平 ( AQLh 在一些抽样表中， 

P •被称 为极限产品缺陷率 （ LTPD ) 或拒收 
质量水平 ( R (? L )。 许多已经出版的抽样验收 
方案亦采用比如无差异质量水平 （ IQL ) 和 
平均交货质量限 ( AOQL ) 等。在参考文献中 
列出的更为高级的教材里有这些质量指数的 
比较深入的讨论。 

3. 在本节中我们讨论了质 量抽样方案。 在这些 
方案中，被抽样的产品项被区分为无缺陷和 
有缺陷两种。在变量 抽样方案中， 我们可以 
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抽取一个样本并测量它的质量特性。例如，对准值进行比较，即可确定是接受还是拒绝这批 
黄金珠宝质量的测验可以是它的含金量。计算产品。 

样本中黄金的平均含量并将它与一个允许的标 



图 20 . 13 二次抽样验收方案 



方法 

10^_ 对 m = 25, c =0 的抽样验收方案，试求当它的产品缺陷率为2%时的接受概率。如果产 

品缺陷率为6%时，接受概率是多少？ 
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11. 对 ； i = 20, c = 0 的抽样验收方案，试计算下面每种情形的生产者风险： 

a . 该批产品的缺陷率为2%。 

b . 该批产品的缺陷率为6%。 

12. 对 ；i = 20, c = l 的抽样验收方案，重复练习11的运算。如果验收准则的数值 c 增加的话，生 
产者风险将会有什么变化？试解释原因。 

应用 

13. 对本节所介绍的 KALI 问题，质量管理人员 要求： 当/>。=：0.03时，生产者风险控制为 0. 10; 

当 7^=0. 15时，消费者风险控制为0.20。对于样本容量为20、接受准 则为、 1的抽样验收方 
案，试回答下列问题。 

a . 对 n =20, c = l 的抽样验收方案，生产者风险是多少？ 

b . 对 n = 20, c = l 的抽样验收方案，消费者风险是多少？ 

c . n =20, c = l 的抽样验收方案是否满足了质量管理人员的风险要求？对此进行讨论。 

14. 为了检验刚刚卸货的原材料，制造商考虑抽取样本10，15和20。利用附录 B 中表5的二项 
概率，选择一个抽样方案， 要求： 当 p ^ O .30 时，消费者 风险月 = 0. 12;当/)。=0.05时，生 
产者风险 a =0.03。 

15. 某国内手表制造商从一个瑞士公司采购石英破璃，石英破璃装船批量为1000,抽样验收方案 
为从中随机选择20个进行验收。 

a . 假如验收准则分别为0, 1，2,试构造验收特性曲线图。 

b . 如果/>。= 0.01，/ > 1 = 0 . 08,请计算 （ a ) 中每个抽样验收方案的生产者风险和消费者风 
险。 



本章我们讨论了统计方法在质量管理中的应用。首先我们介绍了元、/?、控制图以及叩控 
制图作为图形控制手段在监控质量过程中的应用。控制图均有各自的控制限，定期选取样本，并 
在数据图上描绘数据点。数据点落在控制限之外则表明过程处于失控状态，需要采取纠正 措施； 
数据点落在控制限之内的某些轨迹也能表明存在潜在的质量问题，需要采取纠正措施。 

我们同时考察了抽样验收的技巧/根据抽样验收的程序选取样本并检测它们。样本中所发现 
的缺陷产品的数量是决定接受产品或拒收产品的依据，可以利用对样本容量和验收准则的调整来 
控制生产者风险（第一类错误）和消费者风险（第二类错误）。 
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术语辨义 


质量 管理： 确定是否达到质量标准的一系列检验和测量行为。 | 

特定 因素： 所生产的产品在质量上的差异来源于如工具的磨损、错误的机器设置、质量低下的原 
材料或者操作员的操作失误等因素，这些因素被称为特定因素。一旦发现特定因素， 
应该立即调整生产过程。 

一般 因素： 产品质量差异来源于随机化差异的因素被称为一般因素。如果发现产品质量差异来源 
于这些因素，生产过程不需要进行调整。 

控 制图： 用于确定某个生产过程是否处于控制状态中或失控状态下的图形工具。 

元控 制图： 当生产过程以长度、重量和温度等参数的均值来测量时所用的控制图。 

尺控 制图： 当生产过程以某个变量的全距来测量时所用的控制图。 

P 控 制图： 当生产过程以缺陷产品的比率来测量时所用的控 制图。 
np 控制 图:‘ 当生产过程以缺陷产品的数量来测暈时所用的控制图。 

批： 一组产品项目，比如正在装运的原材料、采购的产品部件或者生产线上最后组装的成品。 

抽样 验收： 通过在样本中发现缺陷产品的数量来确定接受还是拒绝一批产品的统计程序。 

生产者 风险： 拒收一批质量合格产品的风险，即第一类错误。 

消费者 风险： 接受一批质量不合格产品的风险，即第二类错误。 

验收 准则： 在仍然能够接受这批产品的前提下，样本中所发现的缺陷产品的最大数量。 

抽样验收特性 曲线： 以缺陷产品的百分比为自变量、接受这批产品的概率为因变量而建立的函数 

图像。这条曲线可以用于帮助确定某个特定的抽样验收方案是否同时满足生 
产者风险和消费者风险的需求。 

多重抽样 方案： 包含不止一个样本或一个样本阶段的抽样验收方案。以在样本中所发现的缺陷产品 

的数量为基础来决定是接受该批产品还是拒绝该批产品，或者是继续抽样检查。 


f 妻 X 



均值的标准差 


无控制图的控制上 下限： 已知过程均值和标准差 


UCL = + 3 ( j- x 

LCL = / jl - 3 a~ x 


( 20 . 1 ) 


( 20 . 2 ) 
(20.3) 
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总体样本均值 


平均全距 


= X\ + ^2 + *** + Xk 
X = ; 


- = R]+ R 2 ^^R k 


无控制图的控 制限： 过程均值和标准差未知 


控制图的上下限 


x ± a 2 r 


比例的标准误差 


UCL = RD 4 
LCL = RD 3 


/!控制图的控制限 


/!/!控制图的控制限 



UCL = p + 3 crj , 

LOL ~ p 一 3 


UCL = np + 3 > lnp ( 1 _ p ) 
LCL = np -3 mp ( 1 - p ) 


抽样验收的二项概率函数 


f ( x ) = 


%! (m) ! 


p x (l - p ) (n ~ x) 


(20.4) 

(20.5) 

( 20 . 8 ) 

(20.14) 

(20.15) 

(20.16) 

(20.17) 

(20.18) 

(20.19) 

( 20 . 20 ) 

( 20 . 21 ) 


针免稼 


16. 从某一处于控制状态下的生产过程抽取样本，样本容量为5,并给出如下20个 均值: 


95.72 

95.24 

95 . 18 

95.44 

95.46 

95.32 

95.40 

95 . 44 

95.08 
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(续表) 


95 . 50 

95.80 

95.22 

95 . 56 

95 . 22 

95.04 

95 . 72 

94 . 82 

95.46 

95.60 

95 . 78 



a . 以这些数据为基础，当过程处于控制状态下时，试求样本均值的估计值。 

b . 假设过程标准差（7=0.50,试建立该过程的控制图，假设过程均值即为 （ a ) 中所求。 

c . 20个样本均值里面是否有表明过程处于失控状态的值？ 

17. 产品填装重量呈正态分布，均值为350克，标准差为15克。 

a . 建立样本容量为10，20，30的样本的控制限。 

b . 当样本容量增加时，控制限有什么变化？ 

c . 如果出现第一类错误，将会出现什么情况？ 

d . 如果出现第二类错误，将会出现什么情况？ 

e . 当样本容量为10, 20, 30时，出现第一类错误的概率是多少？ 

f . 对控制图而言，增加样本容量会有什么优点？当样本容量增加时，哪一类错误的概率将会 
减少？ 

18. 有25个样本，样本容量为5，结果为笑 = 5. 42,云 = 2.0, 请计算元控制图和控制图的控制 
限，并估计过程标准差。 

19. 下面是 Kensport 化学公司的生产过程质量管理数据。数据显示了一个生产周期内5个观测点 
的摄氏温度。该公司计划利用控制图来监控它的生产过程的温度。请构造5控制图和 尺控制 
图。对该公司的生产过程质量可以得出什么结论？ 


样本 

X 

R 

1 

95.72 

1.0 

2 

95.24 

0.9 

3 

95 . 18 

0.8 

4 

95.44 

0,4 

5 

95.46 

0.5 

6 

95.32 

1 . 1 

7 

95.40 

0.9 

8 

95.44 

0,3 

9 

95.08 

0.2 

10 

95.50 

0.6 


样本 

X 

R 

11 

95.80 

0.6 

12 

95.22 

0.2 

13 

95 . 56 

1.3 

14 

95,22 

0.5 

15 

95.04 

0 . 8 

16 

95.72 

1 ‘ 1 

17 

94 . 82 

0.6 

18 

95.46 

0.5 

19 

95.60 

0.4 

20 

95.74 

0.6 


20. 以下是 MasterBlend 咖啡的生产过程数据，数据显示的是3磅重的罐装咖啡的填装重量，利用 
这些数据构造$和尺控制图，对生产过程的质量可以得出什么结论？ 
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CD 光盘数据 
Codee 


观测值 


样本 

1 

2 

3 

4 

5 

1 

3.05 

3.08 

3.07 

3 . 11 

3 . 11 

2 

3 . 13 

3.07 

3.05 

3 . 10 

3 . 10 

3 

3.06 

3.04 

3 . 12 

3 . 11 

3 . 10 

4 

3 . 09 

3.08 

3.09 

3.09 

3.07 

5 

3 , 10 

3 . 06 

3.06 

3 . 07 

3.08 

6 

3 . 08 

3 . 10 

3 . 13 

3.03 

3.06 

7 

3.06 

3 . 06 

3.08 

3 . 10 

3.08 

8 

3 . 11 

3.08 

3.07 

3.07 

3.07 

9 

3.09 

3.09 

3,08 

3.07 

3.09 

10 

3.06 

3 . 11 

3.07 

3.09 

3.07 


21. 考察以下情形，试评论该情形是否对生产过程质量产生影响。 

a . p 控制图的 LCL = 0 ，UCL = 0. 068,当过程处于控制状态下时，产品缺陷率是 0. 033，请 
在控制图上描绘出以下7个样本 结果： 0.035，0.062，0.055, 0.049, 0.058， 0.066, 
0,055,并对它们进行讨论。 

b . 元控制图的 LCL = 22.2, UCL = 24.5, 当过程处于控制状态下时均值 m = 23. 35，请在控制 
图上描绘出以下7个 样本： 22.4, 22.6, 22. 65, 23.2, 23.4, 23.85, 24.1; 并对它们进 
行讨论。 

22. 1 200个零售商店从中心供应仓库每月进货两次，以往的经验表明4%的订单会有这样或那样 
的错误，例如产品装运错误、装运数量错误，还有已经预定的产品被漏装等。从中每个月随 
机抽取200份订单组成样本，以检查其精确性。 

a . 构造该情形的控制图。 

b . 6个月中发生一个或多个错误的订单数目如下：10，15, 6，13, 8，17。请在控制图上描 
绘出这些数据点。对这个订单过程，描绘出来的点能表明什么？ 


23. 抽样验收方案 ^ = 10, c =2 , 假设 p 0 =0.05, p l ： =：0. 2 0。 

a . 计算这个抽样验收方案的生产者风险和消费者风险。 

b . 生产者或者消费者，或者双方都对所拟定的抽样验收方案不满意吗? 

c . 是否应该对抽样验收方案作出改进？如果需要，怎么改进？ 


24. 有抽样验收方案 n = 15 f c = l , 生产者风险为0.075。 

a . 当/>。的值为0.01，0.02, 0.03, 0.04, 0. 05时，抽样验收方案情形如何？这个值意味着 
什么？ 

b . 如果…为0.25,则抽样验收方案中的消费者风险是多少？ 

25. 某个食品生产商大量生产罐装食品，令 p 表示没有达到质量标准的产品比例，使用的是 = 
25, c = 0 的抽样验收方案。 

a . 当/ >=0.01, 0.03, 0.10, 0.20 时，计算抽样特性曲线上的数据点。 

b . 描绘抽样特性曲线。 
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c . 抽样验收方案拒绝缺陷产品率为 0.01 的产品批的概率是多少？ 

26. 某些时候抽样验收方案将会以很大的样本为基础。在这种情况下，可以用正态分布近似二项 
概率分布来计算该方案的生产者风险和消费者风险。参考第6章，我们知道正态分布近似二 

项概率分布时有均值 叩和 标准差 hpll - p) f 假设抽样验收方案71=250, c = 10。 

a . 如果尸。= 0.02，生产者风险是多少？正如第6章所讨论的，在这种情况下应该使用连续纠 
正因子，因此，验收概率是根据随机变量的正态分布概率小于或等于 10.5 来计算的。 

b . 如果=0.08，消费者风险是多少？ 

c . 抽样验收中采用大容量样本的优点是什么？缺点是什么？ 


附录 20. 1用 Minitab 绘制控制图 

在这个附录中，我们描述了利用表 20.2 中所示的 Jensen 计算机公司样本数据来生成 Minitab 
控制图的步骤。样本序号在 C 1 列，第一个观测值在 C 2 中，第2个观测值在 C 3 列中，依此类 
推。 以下的步骤描述了怎样利用 Minitab 来同时构造 5 控制图和 穴控制图： 

步骤 1. 选择 Stat 下拉 菜单； 

步骤 2. 选择 Control Charts ； 

步骤 3. 选择 Xbar-R ； 

步骤 4. 岀现 Xbar-R 控制图对话 框时： 

选择 Subgroups across rows of 在 Subgroups across rows of 中输入 C2-C6 
选择 Tests ; 

步骤 5. 当 Tests 对话框出 现时： 

选择 One point more than 3 sigmas from center line ; * 

点击 OK ; 

步骤 6. 当 Xbar-R 控制图对话框出现时， 

点击 OK 。 

元控制图和尺控制图将在 Minitab 输岀结果中一起出现。在前面的 Minitab 程序里的第 3 步中 
有一些可选项，提供了对不同控制图的访问。例如，5控制图和7?控制图可以分开选取。备用选 
项包括 p 控制图，即控制图和其他的一些控制图。 



CD 光盘数据 
Jensen 


* Minitab 提供了另外几种检验方法以检验质量差异和过程失控的起因，用户可以同时选择其中几种检验方法。 


2 ^ 抽样调查 


统计 实例： 辛辛那提电气公司 
21.1 抽样调查所用术语 
21.2 调查种类与抽样方法 
21.3 调查误差 

非抽样误差 
抽样误差 

21.4 简单随机抽样 

总体均值 
总体总量 
总体比率 
确定样本容量 

21.5 分层简单随机抽样 

总体均值 
总体总量 
总体比率 
确定样本容量 

21.6 整群抽样 

总体均值 
总体总量 
总体比率 
确定样本容量 

21.7 系统抽样 
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辛辛那提电气公司 * 

辛辛那提，俄亥俄州 

Cinergy ，前辛辛那提电气公司 （Cincinnati Gas & 
Electric ) ,是一个公用事业型公司，它为大辛辛那提 
地区的居民提供煤气和电力服务。为了向它的顾客 
提供更好的服务，该公司不断努力满足顾客最新的 
需要。该公司进行了一次关于建筑物特征的抽样调 
查，以了解在其服务范围内的商务建筑的能源需求 
量。 

此项调查需要搜集有关商业建筑物的大量资 
料，诸如楼面面积、雇员数量、能源最终使用量、建筑 
物寿命、建筑材料类型及能源节约标准等等。在调查 
准备期间，该公司的分析家们发现，在该公司服务的 
范围内有大约27 000个商业建筑物。根据调查经费 
和精度的要求，他们建议从中选择616个商业建筑 
物作为调查样本。 

利用分层简单随机抽样方法选择样本，从公司 
的记录中可以得到在其服务范围内过去一年每个商 
业建筑物的总用电量。由于许多建筑物要研究的特 
征(如规模、雇员数量等）都与其用电量有关，因此他 
们选择用电量这一标准将建筑物总体划分为6层。 

第一层包含100个商业建筑物，他们都是前100 
名的用电大户，将这些建筑物中的每一个都包含在 
样本中。尽管它们的数量仅占总数的0.2% ,但是它 
们的用电量却占总用电量的14.4%。对于其他层， 
建筑物的数量是取决于单位成本获得最大精度的基 

* 作者衷心感谢 Jim Riddle of Cinergy 提供这一统计实例。 





Cinergy 公司利用统计调查确定其用户的用电需求量 
© PhotoDisc , Inc . 


本条件。 

他们仔细设计了调查表，并且在正式调查之前 
还做了试验性调查，采用个人采访法搜集资料。最 
后，搜集到616个商业建筑物中的526个建筑物的 
资料 ，85. 4%的答复率是很优秀的。目前，辛辛那提 
电气公司正在利用调查所得到的结果，进行能源需 
求的预测并改进对商业顾客的服务。 

就像辛辛那提电气公司进行调查所要考虑的问 
题一样，本章我们将学习有关抽样调查的设计与实 
施等问题，这些都是统计学家经常需要考虑的问 
题。抽样调查常常被用来树立公司的形象，政府和其 
他机构也常常利用抽样调查来了解总体各个部分的 
情况。 



如下 所示: 
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• 个体 ( element ) 是作为数据来源的一个实体。 

• 总体 ( population ) 是有待研究的所有个体的总和。 

• 样本 ( sample ) 是总体的一个子集。 

为了说明这些概念，我们以 Dunning 微系统有限公司 （ DMI ) 的情况作为示例， Dunning 微系 
统有限公司是一个生产微型计算机及其终端的公司，该公司想搜集购买 DMI 微型计算机的用户的 
特征。为了得到这些资料，该公司对 DMI 微型计算机的拥有者进行了一次抽样调查。这个调查的 
个体 是购买 DMI 微型计算机的每个人， 总体 是购买 DMI 微型计算机的所有人组成的集合，样本是 
要调查的 DMI 微型计算机拥有者的一个子集。 

在抽样调查中，我们有必要区分目标总体与抽样总体。 目标总体 (target population ) 是我们要推 
断的总体， 抽样总体 （sampled population ) 是实际抽取样本的总体，明确这两个总体不总是一致的 
很重要。在 DMI 例子中，目标总体是购买了 DMI 微型计算机的所有人，抽样总体是将保修登记卡 
寄回 DMI 公司的所有计算机拥有者。既然存在购买 DMI 微型计算机但没有寄回保修卡的人，可见 
抽样总体和目标总体是不一'致的。 

如果由样本得出的推断是正确的，则抽样总体必须可以代表目标总体。 

抽样调查获得的结果仅仅适用于抽样总体，这些结果是否能扩展到目标总体取决于分析家的 
判断。关键的问题 在于： 在有待研究的个体上，抽样总体与目标总体是否一致，以此来决定是否 
可以扩展。 

在抽样之前，我们必须将总体划 分为抽样单位 (sampling units ) 。在某些情形下，抽样单位可 
以是一个简单的个体，而在另外一些情形，抽样单位也可以是一组个体。例如，假设我们要调查 
持有证书的专业工程师，这些工程师从事商业建筑物的供暖和空调系统的设计工作。如果无法利 
用这个名册，则我们必须寻找其他的方法。商业电话号码簿或许可以提供所有工程公司的名册， 
根据获得的工程公司的名册，我们能够确定工程公司的一个调查样本。然后，对每一个公司，我 
们应该采访该公司所有的专业工程师。在这种情况下，工程公司是抽样单位，被采访的工程师是 
个体。 

对于某一项特定的研究，抽样单位的列表被称为 抽样框 ( frame )。 在专业工程师的调查中，抽 
样框是商业电话号码簿上的所有工程公司的列表，而不是所有专业工程师的列表，这是因为专业 
工程师的列表是无法得到的。调查所用的特殊抽样框常常取决于可以得到的和确定的名册，然后 
再确定抽样单位。在实践中，抽样框的编制是进行抽样调查的一个最为困难的而又相当重要的步 
骤。 


21.2 调查种类与抽样方法 


最常用的三种调查是邮寄调查、电话调查和私人 访谈； 每一种类型都涉及到调查问卷的设计 
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与管理。用于搜集资料的其他调查种类则不需要调查问卷。例如，雇用会计事务所抽取一个公司 
货物库存的样本，以估计该公司资产负债表上的库存额，这种调查只需简单统计各类项目并记录 
它们的数量。 

邮寄和电话调查的费用较为低廉，但是如果访谈员受过良好训练，则对个人调 
查来说，比较高的回复率和较长的问卷调查表也是可行的。如果需要对每一个个体 
搜集大量的资料，则个人访谈是惟一的途径，本章统计实践中的 示例： 辛辛那提电 

气公司即是如此。 

在使用问卷调查表的调查中，最关键的是问卷调查表的设计。设计者必须抵御涵盖所有要研 
究问题的诱惑，因为每个问题都会增加问卷表的长度，长的问卷调查表不仅会导致回答者的疲 
劳，访谈员也一样会疲劳，邮寄和电话调查尤其如此。然而，如果釆用私人访谈调查，长而复杂 
的调查问卷却是可行的。对于调查问卷，有关措辞、排序和问题组合都存在大量的知识。这些问 
题会在关于抽样调查的更为全面的书籍中进行 讨论； 有关这一类的有关资料见参考文献。 

样本的抽样调査可以根据抽样方法进行分类^利用 概率抽样方法 (probabilistic sampling) ,我 
们可以计算出每一个可能样本的概率；但如果利用非 概率抽样方法 ( nonprobabilistic sampling) ,我 
们则无法知道可能样本的概率。如果研究者计划对估计的精度作出陈述，则不能采用非概率抽样 
方法。与之相反，利用概率抽样方法可以构造岀置信区间，而正是这个置信区间可以给岀抽样误 
差的界限。在接下来的章节中，我们将讨论四种最常用的概率抽样 方法： 简单随机抽样、分层简 
单随机抽样、整群抽样和系统抽样。 

虽然统计学家更倾向于使用概率抽样方法，但是非概率抽样方法通常也是很必要的。非概率 
抽样方法的优点在于它的低成本和易于执行，缺点在于无法就估计精度作出有效的统计上的陈 
述。两种比较常用的非概率方法是方便抽样和判断抽样。 

利用方 便抽样 (convenience sampling) 的时候，我们根据方便性对包含在样本中的单位进行选 
择。举个例子，一个教授在大学里进行一项研究，他挑选学生志愿者参加他的研究的原因可能仅 
仅是因为这些学生恰好在他的班级里。在这种情形下，这个学生志愿者样本被认为是方便抽样。 
在某些情况下，方便抽样是惟一可行的途径。举个例子，对一批桔子进行抽样，检查人员为了得 
到桔子样本可以随意从几箱桔子中进行挑选，因为对整批桔子中的每一个桔子都贴上标签以构造 
样本框，或者使用概率抽样分布方法都将是不现实的。野生动物捕猎和消费者研究的志愿者也是 
方便抽样的例子。 

虽然方便抽样是样本选择和资料收集的一种比较简单的方法，但是对于通过这种方法所取得 
的样本统计量，我们无法对有待研究的总体参数的优良性进行评估。方便抽样有可能得到比较好 
的结果，也有可能导致不良结果。这种方法不存在根据样本结果进行统计推断的统计证明过程。 
但是很多时候研究人员利用方便样本来搜集根据统计方法设计的概率样本资料，对于这个过程， 
研究人员有必要强调方便样本是作为一个随机样本进行对待的，这样，它就可以成为总体的代 
表。但是通过这种方法处理得出的结论却经常受到质疑。因此，我们在使用方便样本对总体参数 
进行推断时，必须相当谨慎。 
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在使用非概率抽样技术的过程中，我们将根据个人主观意识来选择总体中具备代表性的抽样 
单位的方法称为判 断抽样 (judgment sampling ) 0 尽管判断抽样通常是一种比较简单的挑选样本的方 
法，但是调查结果的使用者必须意识到这些结果的质量取决于个人在选择样本时所进行的判断。 
因此，利用判断样本对总体参数进行统计推断也是需要相当谨慎的。一般说来，我们没有必要对 
利用判断样本所得出的结果精度作出统计说明。 

对于非概率抽样方法，如果所使用的方法能够得到一个具有代表性的样本，则 
基于这个样本的点估计是有用的。但是，即使那样，结果的精度仍然是不可知的。 

在选择样本时，概率抽样方法和非概率抽样方法都是可行的。非概率抽样方法的优点在于成 
本较低而且易于执行。但是，如果必须要对估计精度作出说明时，则我们必须使用概率抽样方 
法。几乎所有的大型抽样调查使用的都是概率抽样方法。 


21. 3调查误差 

在进行调查的过程中有可能产生两种类型的误差，一种是抽样误差 （sampling err 0r )， 它是所 
得到的样本点估计值与总体参数之间的差异。换句话说，抽样调查是因为没有对总体的所有个体 
进行调查而产生的误差。另外一种类型的误差是非抽样误差 (mmsampling error ), 它包括抽样调查 
过程中可能出现的其他所有类型的误差，如测量误差、访谈员误差和处理误差等等。抽样误差仅 
仅出现在抽样调查中，而非抽样调查则可能出现在普查中，也有可能出现在抽样调查中。 

非抽样误差 

非抽样误差最常见的形式即我们无法准确地测量要研究的特征。测量误差可以出现在普查或 
者样本抽样中。对于调查的任何一种形式，调查者都必须相当谨慎，保证测量工具（例如调查问 
卷表）足够的精确，并且从事测量的人员也必须要经过充分的培训。在大多数情况下，对于细节 
的足够重视是一种最好的错误防范措施。 

缺乏反应所导致的误差是负责设计调查的统计人员和使用调查结果的管理人员所关心的问 
题。如果无法或者仅仅只能得到部分被调查个体的资料，就有可能产生这种非抽样的误差。如果 
出现偏差的话将会是一个很严重的问题。举个例子，对妇女走岀家庭参加工作的观点进行调查， 
如果仅仅在白天进行家庭采访，很明显会出现偏差，因为在社会上工作的妇女并没有被包含在调 
查样本中。 

在 1990 年美国的一项抽样调查中，25.9%的家庭妇女没有接受调查。2000年 
的调查专门访谈了没有接受调查的人群，以此来估计这部分总体的特性。 
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在技术性的调查中通常会出现一些由于缺乏回答问题所需要的知识而产生的非抽样误差。举 
个例子，对大厦的管理人员进行调查以获得大厦所使用的通风系统的详细资料，大型商务楼的管 
理人员对这些系统可能会有充分的知识，因为他们可能参加过相关的培训研讨班，而且他们会有 
专业同行的支持。相比之下，小型商务楼的管理人员则可能对这些通风系统缺乏足够的知识，因 
为他们经常需要处理大量各种类型的事务。这种知识上的差异可能会对调查结果产生明显的影响。 

另外两种类型的非抽样误差是选择误差和处理误差。如果调查中包含有不适当的项目，则有 
可能产生选择误差。假设设计一个抽样调查，对留胡须的男人进行描述，关于留胡须的男人，有 
些访谈员的理解认为应该包括留小胡子的男人，另外一些访谈员则有可能不这么认为，这样就会 
导致调查结果产生缺陷。如果出现登记错误或者输人错误时，就有可能出现处理误差。如果将调 
查表中的资料输人计算机产生错误，即为输人错误。 

尽管在大多数的调查中有可能会出现一些非抽样误差，但是我们通过严密的计划可以使这些 
误差达到最小。例如保证抽样总体与目标总体一致，遵循良好的问卷调查表设计原则，对访谈员 
进行良好的培训等等。调查的最后结论应该包括关于非抽样误差对调查结果可能产生的影响的讨 
论。 

回顾 21. 1节中介绍的 DMI 抽样调査问题，假设 DMI 公司计划对购买 DMI 计算机的客户的平 
均年龄作出估计，如果可以调查 DMI 计算机购买者的总体（即普查），就不会存在非抽样误差， 
同时我们也能够准确地计算出他们的平均年龄。但是如果不能调查 DMI 购买者的全部总体，将会 
出现什么样的调查结果呢？在这种情形下，样本均值和总体均值之间可能存在差异，差异的绝对 
值即为抽样误差。在实践中，对于任何一个特定样本，我们都无法知道抽样误差，因为总体均值 
总是未 知的； 但是，对于抽样误差的大小我们却可以给出概率说明。 

选择合适的样本设计，可以使抽样误差达到最小。 


正如前面所讲的，抽样误差出现的原因在于调查对象仅仅是一个样本，而不是整个总体。尽 
管抽样误差无法避免，但是它却是可以控制的。选择适当的抽样方法或者抽样设计是对这种误差 
进行控制的一个重要方法。在接下来的几节中，我们将讨论四种概率抽样 方法： 简单随机抽样、 
分层简单随机抽样、整群抽样和系统抽样。 


21.4 简单随机抽样 

回顾在第7章中简单随机样本的 定义： 

从一个容量为 yv 的有限总体中抽取一个容量为/ I 的简单随机样本，每一个容量 
为 n 的样本被选中的概率均等。 
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利用 简单随机抽样 (simple random sampling ) 进行抽样调査，我们首先建立一个抽样框，即抽样 
总体中每个个体的列表。然后根据随机数表进行抽样，利用随机数表可以确保抽样总体中每一个 
个体都有均等的概率被选中。在这一节中，我们将介绍利用简单随机抽样对总体均值、总体总量 
以及总体比率进行估计。 


总体均值 

在大多数抽样调査中，总体概率的分布形式是未知的。举个例子，在 DMI 调査中，管理人员 
想估计 M ， 即购买了 DMI 计算机的顾客的平均年龄的数值。但是， DMI 并不知道他所有的顾客总 
体平均年龄概率的分布形式。不知道总体概率分布形式并不是什么问题，因为 g 的点估计5的抽 
样分布特性只依赖于样本设计的选取。 

在第7章中我们曾经指出，如果选择大样本 （71 多 30) ，则应用中心极限定理可以保证5的抽 
样分布近似服从正态概率分布。在第8章中我 们有： 如果5的抽样分布近似服从于正态概率分 
布，则 M 的区间估计为 

( 21 . 1 ) 

式中，^为均值的标准误差。 

1-«被称为置信系数，& /2 为标准正态概率分布水平 a /2 的上侧分位数。举个例子，如果 
置信系数为95%，则 zac 2 5 = 1.96， 同时也应该注意到，均值的标准误差 cn 正好是$的抽样分布的 

标准差。一般情况下，本章中不论任何时候使用标准误差，都是指需要考虑点估计的抽样分布的 
标准差。 

从一个容量为#的有限总体中，抽取一个容量为 a 的简单随机样本，均值标准误差的估计 

值为 

* = (21 . 2) 

此时用《作为 C 的估计值，总体均值的区间估计为 

元土 Za/2Sx (21.3) 

在抽样调査中，一般取 z = 2 构造置信区间。因此，在使用简单随机样本时，总体均值近似 
95%的置信区间表达式如下 所示： 


利用 z = 2 来构造置信区间是以抽样分布为近似正态分布的假设为基 础的； 几乎 
95% 的数据落在均值的两个标准离差的范围内。 


总体均埴近似 95% 的翬信区间表达式 


x ±2 s- x 

(21.4) 
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我们以 Great Lakes Recreation 的出版商的情形作为例子对此加以说明 ， Great Lakes Recreation 
是一本关于划船以及垂钓类主题的地区性杂志。杂志目前拥有8 000家订户，从中抽取了 484户 
作为简单随机样本，这484户的年平均收人为30 500美元，标准差为7040美元。因此，所有订 
户年平均收人的无偏估计为 i =30 500美元。根据这个结果和公式 (21. 2)，我们可以得到均值标准 
误差的估计值 




8 000-484(7 000 
8 000 V ^(484 


= 310 


因此，根据公式 (21. 4)，我们发现这本杂志订户年平均收入的近似95%的置信区间为 


30 500 ±2(310) =30 500 ±620,或29 880— 31 120 

以上的过程也适用于对其他总体参数，比如总体总量和总体比率进行计算。对于点估计的抽样分 
布近似服从正态概率分布的所有情形，近似95%的置信区间都为 


点估计值± 2 x 点估计量的标准误差的估计值 


在抽样调查的术语中，±的数值通常被称为抽样误差界限值，这与第8章所讨 
论的边际误差是相同的。 


例如，在 Great 的抽样调查中，点估计量的标准误差的估计值为& = 310美 

元， 允许误差 (bound on the sampling error ) 为 2 x 310 美元 = 620 美元。 

总体总量 

考察东北电力电气公司 （ NEG ) 的例子，作为能源使用研究的一部分， NEG 需要对它所服务 
的区域里面的500家公立学校的总面积作出估计。用 X 表示这500所公立学校的总 面积； 换句话 
说，又表示总体总量，如果 A ， 即500所公立学校的总面积已知的话， X 的数值可以计算出来， 

即 Z 等于 7 V 乘以弘。但是，因为 M 是未知的，因此可以用作为的点估计。用 i 表示 J 的 
点估计，有 


总体总麗的 点估计 

k = m 

(21.5) 

点估计的标准误差的估计量为 




Si - Nsx 

(21.6) 

式中 

In — n / s 、 

v N W 

(21.7) 
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请注意公式 (21. 7) 为估计均值的标准误差公式。根据这个标准误差和公式 (21. 6)，我们可以 
得到总体总量近似95%的置信区间表 达式： 


总体沄麗近似 95 %的置信区间 




Nx ± 2 sx 

(21.8) 


假设在 NEG 公司的研究中，从 ；V = 500 所公立学校中挑选了 n = 50所公立学校作为简单随机 
样本； 样本均值无=22 000平方英尺，样本标准差000平方英尺。利用公式 (21.5), 我们可 
以得到总体总量的点估计值 


X : (500)(22000) =11000000 
公式 (21. 7) 可以用于计算均值的标准误差 


/500-50/4 000\ 

V 500 \~ j ^) 


= 536. 66 


然后根据公式 (21. 6), 可以得到 X 的标准误差估计值 

^=(500)(536. 66) =268 330 

因此，利用公式 (21.8), 我们可以得到 NEG 公司服务区域内的500所公立学校总面积近似95% 
的置信区间为 

11 000 000 ±2(268 330) =： 11 000 000 ± 536 660 
或者10 463 340至11 536 660平方英尺。 


总体比率 

总体比率 p 指的是总体中具备感兴趣特性的个体所占的比重。举个例子，在市场调查研究 
中，人们希望了解喜好某一特定品牌的消费者比重，这就是总体比率。样本比率戶是总体比率的 
无偏点估计。总体比率标准误差的估计值为^ 



(21.9) 

总体比率近似95%的置信区间表达式如下 所示： 


总体比率近似 95% 的蘧信区间 


p ± 2 sp 

(21.10) 


以 NEG 公司的抽样调查作为示例， NEG 公司计划对它的服务区域内使用天然气作为燃料供热500 
所的学校的比率作出估计。如果在所抽出的50所学校的样本中，有35所学校使用天然气，则在 
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总体500所学校中使用天然气比率的点估计值^ = 35/50 =0.70,根据式 (21. 9) 我们可以得到比率 
标准误差的估计值为 



//5 QQ -5 Q \7 a 
VI 500 ) (— 


7-(1 -0.7) 
50-1 


0. 062 


1 


因此，利用公式 (21. 10)，我们可以得到总体比率的95%的置信区间为 

0.7 ±2(0. 062 1) =0. 7±0. 124 2 


或者 0. 575 8至 0. 824 2。 

从这个例子我们可以看到，估计总体比率的时候置信区间的宽度可能很宽。一般说来，我们 
需要大样本容量来保证总体比率的估计精度 。 Louis Harris & Associates 进行了一项关于529个共同 
基金投资者的抽样调查，其结果 表明： 调查结果应该可以精确到4.3% ( Business Week, August 
15,1994)。这意味着近似95%的置信区间宽度为0.086。对于样本容量很大的总体，我们经常要 
使用= 1 200或者更大的样本。 

确定样本容量 

在抽样设计中样本容量的选取是一个很重要的问题。最好的选择通常是在费用和精度之间进 
行权衡。比较大的样本可以给出较高的精度（允许误差比较少），但是这样做会导致调查更加昂 
贵。通常情况下，研究预算将会决定样本容量的大小。对于其他的情形，样本容量应该足够的 
大，以确保调查能够达到指定的精度。 

选择样本容量的一般性方法是首先规定所要求达到的精度，然后确定能够满足精度要求的最 
小样本容量。在这里，精度指的是近似置信区间的 大小； 比较小的置信区间可以得到较高的精 
度。因为近似置信区间的大小取决于样本误差忍，这意味着选择精度水平相当于选择丑的数值。 


因此我们有 


( 21 . 11 ) 


( 21 . 12 ) 


下面我们介绍估计总体均值时选择样本容量需要用到的方法。 
公式 （21.2) 为均值的标准误差估计公式 


IN- 


N 


(☆) 


回顾前面所提到的允许误差为点估计标准误差估计值的2倍， 


B=2 


W- 


N 


t) 


对于允许误差 B ， 根据公式 （21.11) 我们可以得到 


Ns : 


I R 2 \ 
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一旦选择了所需要达到的精度水平（通过选择 B 的数值来进行选择），根据公式 (21. 12) 我 
们即可以得到为了达到指定精度水平所需要的 n 的数值。在利用公式 (21.12) 确定 a 的数值时， 
存在一个实际问题，即除了规定所需要的允许误差 S 之外，我们还必须知道样本方差但是我 
们却只有在得到实际样本时才可能获知 

科克伦•提出了在实践中确定/估计值的各种方法，其中三种方法如下 所示： 


1. 分两个阶段进行抽样，根据第一个阶段公式 (21. 12) 中所得到的 P 估计值，确定出全部样 
本容量 a ， 然后再抽取第二阶段所需要的其余单位数。 

2. 利用试点调查或者预先检验的结果对 f 进行估计。 

3. 利用以前的样本资料信息进行估计。 


现在让我们以某一所大学的毕业生起始年薪为例，来考察总体均值的估计。假设这所大学有 
# = 5 000名毕业生，我们计划建立近似95%的置信区间，宽度在1 000美元之内。对这个置信区 
间有5 = 500。利用公式 (21. 12) 确定 n 之前我们需要估计 f 的数值，假设以去年同样的研究为 
基础，我们得到 s =3000 美元。然后我们可以利用这个数值来估计/，根据5=500、 5 = 3 000 
以及 /V = 5000， 以及公式 (21. 12)，我们可以确定样本容量为 



5 000(3 000) 2 
5 000( (巧 0 ) 2 ) +(3 000) 2 


= 139. 97 


综上所述，对于规定宽度为1 000美元的近似95%置信区间，所需要的样本容量为140。但 
是必须牢记这个计算结果取决于 s 的最初估计值3 000美元。如果对于今年的抽样调查， s 的数 
值增大，则近似置信区间宽度也将超过1 000美元。因此，如果调查预算许可，调査设计者可将 
样本容量确定为150,以确保近似95%的置信区间宽度小于1000美元。 

对于给定的允许误差 S ， 估计总体总量所必需的样本容量计算公式为 



(21.13) 


在前面的示例中，我们用允许误差5 = 500来估计起始年薪。现在假设我们将允许误差设为 
2000000美元，以此来估计5 000名毕业生的全部年薪。则将 B =2 000 000代入公式 (21. 13)， 
得到所需样本容量 



5 000(3 000) 


(2 000 000 ): 
4(5 000) 


(3 000): 


= 215.31 


综上所述，对于给定允许误差为2 000 000美元的近似95%的置信区间，所需要的样本容量 
为216。在此我们应该注意到，如果要同时满足总体均值的允许误差为500美元和总体总量允许 


见 William G. Cochran ，Sampling Techniques, 3rd ed., Wiley, 1977 。 
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误差为2 000 000美元的调査，则样本容量必须为216。该容量为总体均值所提供的允许误差比所 
需要的更小，是满足总体总量所需精度的最小值。 

在对总体比率进行估计时，选择样本容量的公式类似于估计总体均值的公式。我们所需要做 
的仅仅是将公式 (21. 12) 中的 s 2 替换为 f ( l — W ， 即可得到 



Np(l ~p) 

+ ?d -p) 


(21.14) 


为了使用公式 (21. 14)， 我们必须规定允许误差 S 和 f 的估计值。如果缺乏戶的合适的估计值，我 
们可以用戶 =0.5 代替，这样将会确保近似置信区间的允许误差会在所要求的误差范围之内。 



方法 



L - 

自测题 


利用简单随机抽样，从总体 7 V = 800 中抽取容量为50的样本，样本均值5=215,样本 
标准差 s = 20。 

a . 请估计总体均值。 


b . 估计均值的标准误差 


c . 建立总体均值近似95%的置信区间。 


2. 利用简单随机抽样，从总体# = 400中抽取容量？ i 〒80 的样本，样本均值$ = 75，样本标准差 

5 = 8 o 

a . 请估计总体均值。 

b . 估计均值的标准误差。 

c . 建立总体均值近似95%的置信区间。 

3. 利用简单随机抽样，从总体 yv =1000 中抽取 容量？ 1 = 100的样本，样本比率 P =0.30。 

a . 请估计总体比率。 

b . 建立总体比率的标准误差。 

c . 建立总体比率近似95%的置信区间。 

4. 选择一个样本建立总体均值近似95%的置信区间，总体包含450个个体，试点研究得出 s = 10 o 
如果计划建立宽度为30的近似95%的置信区间，则应该抽取多大容量的样本？ 



/ 
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应用 


5 19% 年北卡罗来纳州小型企业管理委员会为本州的小企业批准了 771 项由政府担保的- 

企业贷款 1998) o 假设根据一个由 50 个小型企业组成 

自测题 

的样本得知平均贷款额为 149670 美元，标准差为 73420 美元，样本中有 18 家企业为 
制造型企业。 

a. 建立总体平均贷款额近似 95% 的置信区间。 

b. 建立北卡罗来纳州 771 家小型企业贷款总额近似 95% 的置信区间。 

c. 在样本中 ， 50 家企业中的 18 家为制造企业。建立制造企业贷款比率近似 95% 的置 
信区间。 


6. 根据加利福尼亚州某县 724 家企业的税务申报表，得到这些企业年平均收入为 161 220 美元， 
标准差为 31 300 美元。如果计划在下一年建立这些公司年平均收入近似 95% 的置信区间，需 
要抽取多大容量的样本？精度要求为区间宽度小于 5000 美元。 


21. 5分层简单随机抽样 


在分层 简单随机抽样 (stratified simple random sampling) 中，我们首先将总体分成好组（即 
层），然后从第/I层抽取一个容量为&的简单随机样本。根据这//个简单随机样本的综合资 
料我们可以得到关于总体均值、总体总量和总体比率等等各种总体参数的估计。 

如果每个层内的差异比层间差异小，则分层简单随机样本可以获得更高的精度（总体参数的 
区间估计将更窄），各层之间的划分应该根据样本设计者的 判断。 以应用为基础，总体可以按部 
门、地域、年龄、产品类型、行业类型和销售水平等等进行分层。 

举个例子，假设 Lakeside 大学的商学院计划对今年毕业生进行调査，目的是了解他们的起始 
年薪。这个学院有5个 专业： 会计、金融、信息系统、市场和运营管理。在今年的1500名毕业 
生中，会计专业有爪=500名，金融专业有爪=350名，信息系统专业有 /V 3 = 200名，市场营销 
专业队=300名，运营管理专业^ = 150名。往年的起始年薪资料 表明： 起始年薪在专业之间的 
差异要大于专业内部的差异。因此，抽取了 n = 180名学生组成简单随机样本，180名学生中，其 
中会计专业45名 U 1= =45) ，金融专业40名 U 2 =40) ，信息系统专业30名 U 3 =30) ，市场 
营销专业35名 （m =35) ,运营管理专业30名 U 5 =30) 。 

总体均值 

在分层抽样中，总体均值的无偏估计是各层样本均值的加权平均数，权数即总体在各层的比 
重。我们用 L 表示总体均值的点估计，其定义 如下： 
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s 体均值的点估计 



Xsx = X (^) ^ 

(21.15) 

式中 H 一 层数； 


Xh — 

—第 / l 层的样本 均值； 


Nh — 

一第 h 层的单位数； 


N — 

—总体所有的个体数： N = Ni + N2 +…+ Nho 



对分层简单随机样本，均值的标准误差计算 如下: 


▽ I 康 (21.16) 


利用这个结果，我们可以得到总体均值近似95%的置信区间表 达式: 


总体均值近似95%的璽信区间 




欠 Bt 士 

(21.17) 


假设表 21.1 为 Lakeland 大学商学院180名毕业生的样本调查结果。各个专业，或者层的样 
本均值分 别为： 会计35 000美元、金融33 500美元、信息系统41 500美元、市场营销32000美 
元、运营管理36000美元，利用这些结果，根据公式 (21. 15) 我们可以得到总体均值点估计为 


^ = (rio ) (35 000) + (rio ) (33 500) + (rio ) (41 500) 

+ (rlo) (32 °° 0) + (rio) (36 000) =35 017 


表 21. 1 Lakeland 大学商学院毕业生起始年薪抽样调查 


专业 U) 

右(美元） 

Sh 

Nh 

tih 

会计 

35 000 

2 000 

500 

45 

金融 

33 500 

1700 

350 

40 

信息系统 

41 500 

2 300 

200 

30 

市场营销 

32 000 

1 600 

300 

35 

运营管理 

36 000 

2 250 

150 

30 


表 21. 2给出了估计标准误差所需要的一部分计算结果，其中有 

y N h ( N h - n h )—^42 909 037 698 
fr, n h 


因此有 
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= 


(1 500) 


(42 909 037 698) = V 19 070. 68 = 138 


所以利用公式 (21. 17) 我们可以得到总体均值近似 95% 的置信区 间为： 35 017 ±2(138) =35 017 ± 
276, 或者 34 741 至 35 293 美元。 


表 21. 2 Lakeland 大学商学院毕业生起始年薪抽样调查估计均值标准误差的部分计算结果 


专业 

h 


Nh{Nh -nh)— 
rth 

会计 

1 


500(500 -45) ( 2 二。 尸- =20 222 222 222 

金融 

2 


350(350 - 40)-=7 839 125 000 

信息系统 

3 


(2 300) 2 

200(200 - 30) - '3 Q = 5 995 333 333 

市场营销 

4 


300(300 - 35) d ⑤ OZ = 5 814 857 143 

运营管理 

5 


1 加 （ 2 250 ) 2 3 037 500 000 

ouu ^ u -^ u ; 3 o ^_^42 909 037 698 


5 

^N h (N h - 

h = 1 

m )— 〆 

Uh 



总体总量 


总体总量（ X )的点估计由/ V 乘以 L 得到。 


总体总屋的点估计 

k:m & ' 

(21.18) 

这个点估计量的标准误差估计值为 


Si — Ns ^' 

(21.19) 

因此，总体总量 95% 的近似置信区间表达式如下 所不： 


总体总置95%的近似置信区间 


A^st ± 2 4 

(21.20) 


现在假设 Lakeland 大学商学院计划对其 1 500 名商科毕业生的总收入作出估计，目的是为了 
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评估他们对经济的影响。利用公式 (21. 18) 我们可以得到总收入的无偏估 计量： 

i = ( 1 500) 35 017=52 525 500 
利用公式 (21. 19) 我们得到总体总量标准误差的估 计值： 

5^=1 500(138) =207 000 

因此，利用公式 (21. 20)，我们发现1 500名毕业生总收人近似95%的置信区间为52 525 500 ±2 
(207 000) =52 525 500 ±414 000,或者52 111 500至52 939 500美元。 


总体比率 

分层简单随机抽样总体比率的无偏估计为各层比率的加权平均数，权数为总体在每一层的 
比重。我们用 A 表示总体比率的点估计，定义如下 所示： 

^总体比率的点估计 

芦《 = S (21.21) 


式中 H — 

—层数； 

ph 一 

一第 h 层的样本 比率； 

N h — 

—第 / t 层的个 体数； _ 

N — 

一总体所有的个体数 ： N = Ni + N2 + + Nho 


标准误差的估计值计算 如下： 

sp iUNrm) [■ 气 (21. 22) 

▼ h = l 


因此，总体比率近似95%的置信区间表达式如下 所示: 


SS 体比率近似95%的置信区间 


/?st i 2 Sp ^ 

(21.23) 


在 Lakeland 大学抽样调查中，该大学想了解它的毕业生起始年薪不低于36 000美元的比率。 


180名毕业生抽样调査的结果显示表明63名毕业生的起始年薪在36 000美元之上，63名学生中 
有16名专业为会计，3名为金融，29名为信息系统，没有市场营销专业，15名为运营管理。 

利用公式 (21. 21) 我们可以得到工作的起始年薪不低于36 000美元的比率点估计为 

-C) (ilH 饞 ) 洁 h S) (f 卜 C) 皓 )+ 0 ( 盖） 


= 0.314 9 





在表 21. 3中，我们给出了估计标准误差所需要的部分计算 结果: 
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因此有 


=1 570. 691 3 


V~f56o) 2，(1 570 . 691 3 ) =° - 0264 

利用公式 (21. 23) 我们可以得到毕业生起始年薪不低于36000美元的近似95%置信区间为:0. 314 9 
±2(0.026 4) =0.314 9 ±0. 052 8,或者 （)• 262 1 至 0.367 7。 


表 21. 3 Lakeland 大学抽样调查中估计的标准误差所需要的部分调查结果 


专业 

h 



会计 

1 

酬 MK ^4 5) [_( 16/4 4 5 5 )( F 4 - 5 .〉]= 

1 184. 736 3 

财务 

2 

350 ⑽ -刪产 40 ^/ 40 )] 

=193. 004 8 

信息系统 

3 

200(200-30) [ (29/3 3° 0 )( ； /30) ] 

= 37.777 8 

营销 

4 

300(300-35) [ 

•] =0.000 0 

运营管理 

5 

150(150-30) [ ( 15 H 5/30 〉: 
__^ - ^ 一 

]=155. 172 4 
今 1 570.691 3 


i ： 峨 i)p (1 - fl] 

fc = i nh 1 




确定样本容量 

对分层简单随机抽样我们可以用两阶段过程来选取样本容量，首先确定总的样本容量然 
后再确定每一层应该分配的样本单位数。或者首先确定每一层应选择的样本个体数，然后将这些 
加起来得到总样本容量。因为通常需要估计每一层的均值、总量和比率，所以这两种组合方法都 
是经常使用的。确定总的样本容量 n 以及怎样对它进行分配，这样可以给所有有待研究的总体参 
数提供必要的精度^然后，如果某些层的样本单位数没有达到满足层内估计量所要求的必要精 
度，我们就需要将这些层的样本单位数向上调整，在本节中，我们将讨论如何恰当地将总样本容 
量分配到不同的层，并给出选取总样本容量以及对它进行分配的方法。 
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分配工作指的是确定总样本分配到每一层的部分，这些部分将确定每一层的简单随机样本数 
量大小，在进行分配时需要考虑的较为重要的因素 如下： 

1. 每一层的个体数。 

2. 每层内的个体方差。 

3. 每一层选择个体所需的费用。 

一般说来，较大的样本应分配给个体数目较多的层和方差较大的层。与此相反，在给定费用 
的情形下，为了获得更多的信息，单位抽样成本最大的层应该分配较少的样本数目。 

层与层之间的差异通常是很大的。举个例子，假设在某一项特定研究中，我们想确定每一栋 
建筑物中员工的数量。因为大型建筑物每层之间的差异比小型建筑每层之间的差异要大，因此应 
该给大型建筑物的层赋予较大的样本。如果抽样个体仅位于某些层，而非其他层，则采访者必须 
在抽样个体之间往返，因此选择费用也是一个很重要的方面。某些层涉及到农村地区，而另外一 
些层则包含城市地区，这种情况是经常岀现的。 

在很多调查中，关于各层的抽样单位成本近似相等（比如邮寄和电话调查）。在这种情况下， 
进行分配可以忽略抽样成本。对于这种情形，我们可以给出确定样本容量和进行分配的近似公 
式。在有关抽样调查的较为高级的教材中，我们给出了抽样成本层间差异很显著的情形的适用公 
式。本节我们所给出的公式，能够满足在给定的精度水平下使总抽样成本最小的要求。这种方法 
就是著名的 Neymaii 分配法， 它将总样本容量 / i 分配到各层，结果如下 所示： 



公式 (21. 24) 表明分配到各层的个体数受每一层容量和标准差的影响。在进行分配之前我们必 
须首先确定总样本容量 ri 。 对于给定的精度水平在估计总体均值和总体总量时，我们可以利 
用下面的公式来确定总样本 容量： 


估计 S 体均值时的祥本容置 

\ h-\ / 

(21.25) 

71 — 

N 2 


H 

- 

h = 1 


估计总体思置时的祥本容屋 



(21.26) 


n — 

|-+ ^ N h si 

h=l 
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举个例子，假设 Chevrolet 销售商计划调査购买 Corvette 、 Geo Prizm 或者 Cavalier 商品的消费 
者，以获得确定广告时所需要的一些有用信息。尤其需要指出的是，假设允许误差为 100 美元， 
销售商想估计这些消费者的月平均收人，它将600名 Corvette 、 Geo Prizm 和 Cavalier 的消费者分为 
3层，100名购买了 Corvette , 200名购买了 Geo Prizm , 300名购买了 Cavalier 。 用试点调查对每一 
层的标准差进行估计，所得结果如下 所示： Corvette 的消费者 s 1= =1300 美元 ， Geo Prizm 的消费者 
52 =900美元， Cavalier 的消费者 S3 = 500美元。 

这个调査的第一步是选择样本容量，在给定允许误差石= 100 美元的情况下，根据公式 
(21.25) 确定估计总体均值时所需要的总样本容量。首先我们计算 

3 

= 100(1 300) +200(900) +300(500) =460 000 

h = 1 

然后，我们计算 

3 

= 100(1 300) 2 + 200(900) 2 + 300 ( 500 ) 2 = 406 000 000 

h = 1 

将这些结果代入公式 (21. 25) 中，在给定允许误差5 = 100美元的条件下，我们可以确定所需要的 
总样本容量为 


_ (460 000 ) 2 _ 

(600) 4 100)2 + 406 000 000 


=162 


因此，总样本容量为162即能够满足所要求的精度。.为了将总样本分配到3层中去，我们可以利 
用公式 (21. 24) 


ni 


=162 ( 


卜46 




= 63 




=162 ( 


300(500) \ 
460 000 ) ~ 


因此对于162个消费者的总样本容量，我们建议按如下方式进行 抽样： 46名为 Corvette 购买者， 
63名为 Geo Prizm 购买者，53名为 Cavalier 购买者。 

在估计总体比率的时候为了确定样本容量，我们只需简单地将公式 （21.25) 中的&用 

+ A(1 -办）来代替，结果 如下： 


/ " _\ 2 

X 从 ^(i - 办 ) 

——7 ^~ H - (21.27) 

+ 文 N h pk(A -ph) 
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一旦估计总体比率时所需的总样本容量被确定，我们就可以用 >^(1 -办）代替&后的公式 
(21.24) 对各层进行分配。 



1. 分层简单随机抽样的优点在于各层总体参数 
的估计能够自动成为抽样过程的派生产品。 
举个例子，在 Lakeland 大学的抽样调查中， 
我们除了能够获得所有毕业生起始平均年薪 
的估计外，还可以获得每个专业的学生起始 
年薪的估计值。因为每个专业工作的起始年 
薪估计值仅仅取决于从每一层所得的简单随 
机样本，因此选取一个简单随机样本建立近 
似置信区间的过程[见公式 (21. 4)] 也适用于 
对每一层建立均值近似95%的置信区间。同 
样地，利用公式 （21. 8) 和公式 (21.10) 也可 
以分别建立每一层的总体总量和总体比率的 


区间估计。 

2. 有时候也可以用分层简单随机抽样分配的 
另一种形式， 即比例分配， 利用这种方法分 
配给每一层的样本单位数的公式 如下： 

nk = (21.28) 

如果各层方差近似相等而且抽样单位成本在 
每个层间几乎完全相同时，比较合适的方式 
是进行比例分配。在各层方差相等的情形 
下，比例分配和 Neyman 分配过程的结果是 
相同的。 



方法 

7. 一个分层简单随机抽样有如下的 结果: 


自测题 

层 （ h ) 

x h 

Sh 

PH 

N h 

n 


1 

138 

30 

0.50 

200 

20 


2 

103 

25 

0.78 

250 

30 


3 

210 

50 

0.21 

100 

25 


a . 计算每一层总体均值的估计值。 

b . 建立每一层总体均值近似95%的置信区间。 

c . 建立整个总体均值近似95%的置信区间。 

8. 重新考察练习7的样本抽样结果。 

a . 建立每一层总体总量的估计值。 

b . 对于总体中的550个个体，计算总体总量的一个点估计。 
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c . 建立总体总量近似95%的置信区间。 、 

9. 重新考察练习7的样本抽样结果。 

a . 建立每一层总体比率近似95%的置信区间。 

b . 对于总体中的 550 个个体，计算总体比率的一个点估计。 

c . 估计总体比率的标准误差。 

丄建立总体比率近似95%的置信区间。 

10. 某个总体被划分为3层，其中 7 Vi =300, M =600, ^ = 500。根据过去的调查，每一层的标 
准差估计值如下： 51 = 150, 52 = 75 , 53 = 100。 

a . 如果总体均值的估计值允许误差为忍=20,则样本容量应该为多少？每一层应该分配多少 
个体？ 

b . 如果总体均值的估计值允许误差为忍 = 10,. 则样本容量应该为多少？每一层应该分配多少 
个体？ 

c . 如果总体均值的估计值允许误差为 B = 15 000,则样本容量应该为多少？每一层应该分配 
多少个体？ 

应用 

11. 某个药品连锁店在4个城市设有经营 网点： 38个分店位于印第安诺波利斯，45个分店位于路 

易斯维尔，80个分店在圣路易斯，70个分店位于孟菲斯。由于竞争的缘故，4个城市的分店 
销售额存在很大的差异，以下是根据抽样调查所得的销售额（千美元）资料，我们将每一个 
城市作为一个单独的层，利用分层简单随机抽样抽取样本。 ‘ 


印第安诺波利斯 

路易斯维尔 

圣路易斯 

孟菲斯 

50.3 

48.7 

16.7 

14.7 

41.2 

59.8 

38.4 

88.3 

15.7 

28.9 

51,6 

94.2 

22.5 

36.5 

42.7 

76.8 

26.7 

89.8 

45.0 

35. 1 

20.8 

96.0 

59.7 

48.2 


77.2 

80.0 

57.9 


81.3 

27.6 

18.8 




22.0 




74.3 


a . 估计每一个城市（层）的平均销售额。 

b . 建立每一个城市平均销售额的近似95%的置信区间。 

c . 估计销售额在50000美元之上的分店的 比率。 


d . 关于销售额在50000美元之上的分店的比率，建立近似95%的置信区间。 



942 商务与经济统计 


12. 重新考察练习11中的样本调查结果。 

a . 估计圣路易斯的总体总量。 

b . 估计印第安诺波利斯的总体总量。 

c . 建立药品连锁店平均销售额的近似 95% 的置信区间。 

d . 建立药品连锁店总体销售额的近似 95% 的置信 区间。 

13. 一个会计事务所在银行金融业、保险业和经纪人行业具有大量的客户，其中金融业爪=50, 
保险业 yv 2 = 38, 经纪人行业爪=35。这个会计事务所雇用了一个市场调查公司对这三个行业 
的客户进行调查，该市场调查公司关于客户的业务和这些客户对该会计事务所提供服务的满 
意程度进行了调查，假设在允许误差5 = 30的情况下，估计123名客户的平均雇员数量近似 
95%的置信区间。 

a . 试点调查得到如下 结果： 5 i =80, s 2 = 150 和幻=45。选择样本总容量，确定分配到3层中 
的样本单位数。 

b . 假设在进行试点检验时，选择样本容量的每一层标准差都等于100。请选择样本总容量并 
确定每一层的抽样单位数。 


21.6 整群抽样 

整群抽样 (cluster sampling ) 需要将总体的各个个体分为 /V 组(也称为群），并使总体中每一个 
个体只属于一群。例如，我们想调查俄亥俄州的登记选民，一种方法是建立包含俄亥俄州所有登 
记选民的抽样框，然后根据抽样框选取选民的一个简单随机 样本； 另一种方法是整群抽样，将俄 
亥俄州 /V = 88 个县的表单作为抽样框（见图 21.1), 对于这种方法，每个县（或群）都将包含一 
组登记选民，而这个州的每个登记选民都仅属于一个群。 

假设我们从88个县中挑选一个〃 =12的简单随机样本，如果我们搜集12个抽样群体中全部 
登记选民的资料，这种方法被称为单阶 段整群抽样。 如果我们从12个抽样群体中选取登记选民的 
一个简单随机样本，这种方法被称为二阶 段整群抽样。 对于这两种情形，我们都可以利用样本结 
果得到比如总体均值、总体总量或者总体比率等总体参数的点估计和区间估计公式。在这一章 
中，我们只讨论单阶段整群抽样，二阶段整群抽样在有关抽样调查的更为高级的教材中进行讨 
论。 

分层抽样和整群抽样都是将总体划分为组，因此从这个角度上讲这两种抽样过程是相似的。 
但是，选取整群抽样的原因和选取分层抽样的原因却是不同的。如果群内的个体存在差异时，整 
群抽样将会给出比较好的结果。理想化的情形是每一个群都是总体的一个缩影，在这种情形下， 
我们只需要抽取很少的群即可获得整个总体的特性信息。 

整群抽样的一个最初的应用就是区域抽样，这种情形的群可以是县、区、城市社区或者其他 
已经有所规定的地理区域。由于资料仅仅从整个地理区域（或者群）中的一个样本中进行搜集， 
而且群内个体特性很相近，因此资料搜集人员或者调查人员去采访一个抽样个体时，可以有效地 
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图 21. 1作为登记选民群的俄亥俄州各县 

节约时间和经费。因此，如果需要较大的样本总容量，整群抽样比简单随机抽样或者分层简单随 
机抽样都会节省费用。除此之外，建立抽样框或者选中个体的表单，整群抽样亦可以使所耗费的 
时间和费用最小化。原因在于整群抽样不需要建立总体中每一个个体的表单，而仅仅需要建立群 
中个体的表单。 

并不需要将总体中的每一个个体列出表单，对于整群抽样，我们只需要列出群 
中个体的表单。 

为了阐述整群抽样，我们以某个州的注册会计师协会的一项调查作为例子，这个注册会计师 
协会拥有12 000名职业注册会计师。作为一部分调查内容，注册会计师协会搜集和注册会计师的 
收人、性别以及生活相关的资料，因为信息搜集采用的是个人采访的方法，所以注册会计师协会 
采用整群抽样，目的在于使总的采访差旅费和采访费用最小。抽样框中包含所有在该州登记注册 
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的会计事务所。假设由 yv = 1000 群，即所有在该州登记注册的会计事务所为 1000 所，选取 = 
10 个会计事务所作为简单随机样本。 

在介绍整群抽样中，建立总体均值、总体总量和总体比率近似95%的置信区间需要用到一些 
公式，公式中的记号意义 如下： 

N —总体 群数； 
n ——样本中所选取的 群数； 

Mi -第 i 群个体数； 

M ——总体中的单位数， M = +恥+…+ M / v ; 

M ^ M / N ——每一群的平均单位数； 

——第 i 群所有观察值的 总量； 
a ' —— 第 i 群具有某种特性的观察值的数量。 

关于这个注册会计师协会的抽样调査，我们有以下的已知 条件： 

7 V =1000 
n = 10 
M = 12 000 

M = 12 000/1 000 = 12 

表 21.4 给出了每个所挑选的群中 M , 和&的 数值，还有女性注册会计师 （&) 的资料。 


表 21. 4 注册会计师抽样调查结果 


事务所 

注册会计师数 

第 f 个事务所年薪 

总额(千美元 ）（ x ,) 

女性注册会计师人数 （aO 

1 

8 

384 

2 

2 

25 

1 350 

8 

3 

4 

148 

0 

4 

17 

857 

6 

5 

7 

296 

1 

6 

3 

131 

2 

7 

15 

761 

2 

8 

4 

176 

0 

9 

12 

577 

5 

10 

33 

1 880 

_9 


总计 128 

6 560 

35 
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总体均值 


根据整群抽样所得到的总体均值点估计公式如下 所示: 


窃体均值点估计 

3 c c = 

i Xi 

. i=l 

• Im , 

i = 1 

(21.29) 

这个点估计量的标准误差估计值为 

/ /A , 、 ^( xi - XcMi ) 2 

I / N ^ n \ i=i 

1 、 NnW! n ~ 1 

(21.30) 

因此，总体均值近似 95% 的置信区间表达式为 


总体均值近似95%的置信区间 

x c ±2 s% 

(21.31) 


利用表 21. 4中的资料我们可以得到注册会计师平均年薪的点估计 


- 6 560 

128 


= 51.250 


利用表 21.4 中的年薪资料，以千美元计算，我们可以得到注册会计师平均年薪估计值为51 250 
美元。 

表 21. 5中列出了估计标准误差所需的部分计算结果 

n 

Y ,( xi - x c Mi ) 2 = 51 281.378 


因此，有 




1 000-10 1 

51 281.378 

(1 000 )( 10 )( 12 ) 2 J 

10-1 




1.979 


所以，我们可以得到标准误差为1 979美元，利用公式 (21. 31) 我们计算出平均年薪近似95%的置 
信区 间为： 51 250±2(1 979) =51 250±3958,或者从47 292美元至55 208美元。 
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表 21. 5 注册会计师抽样调查中估计均值标准误差所需的部分计算结果， 其中： Xc = 51.250 


事务所 （0 

Mi 

Xi 

U-51.250M/) 2 

1 

8 

384 

[384-51. 250(8) ] 2 

= 676. 000 

2 

25 

1 350 

[1 350 - 51. 250(25) ] 2 

= 4 726. 563 

3 

4 

148 

[148 -51. 250(4) ] 2 

= 3 249. 000 

4 

17 

857 

[857 _51_250(17)] 2 

= 203.063 

5 

7 

296 

[296-51. 250(7) ] 2 

= 3 937.563 

6 

3 

131 

[131 _51.250(3)] 2 

= 517.563 

7 

15 

761 

[761 -51.250(15)] 2 

— 60. 063 

8 

4 

176 

[176 - 51. 250 (4) ] 2 

= 841.000 

9 

12 

577 

[577-51.250(12)] 2 

=1 444. 000 

10 

33 

1 880 

fl 880-51. 250(33)? =35 626. 563 


总计 128 

6 560 


•51 281.378 


X Ui Mi ) 2 
* — % 


总体总量 


总体总量的点估计表达式 如下: 


总体思麗的点估计 

X = Mx c 

(21. 32) 

这个点估计的标准误差估计量为 


Si ~ Msn t 

(21.33) 

因此总体总量近似95%的置信区间表达式如下 所示： 


沄体思 屋近似 95% 的置信区间 


Mx c ± 2 si 

(21.34) 


对于注册会计师示例的抽样调査，有 


X = Mx c = l 2 000(51 250) =615 000 000( 美元） 

5 i = M 紅=12 000(1 979) =23 748 000( 美元) 

因此，根据公式 (21. 34) 我们可以得到近似95%的置信区 间为： 615 000 000美元 ±2(23 748 000 
美元）=615 000 000美元 ±47 496 000美元，或者567 504 000美元至662 496 000美元。 
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总体比率 


整群抽样总体比率点估计表达式 如下: 


总体比率点估计 

Ia s 

D c =— — 

i = 1 . 

式中 a , 第 i 群中具备某种特性的个体数量。 

(21.35) 

这个点估计的标准误差估计量为 


/ /A7 、 ^( ai - p c Mi ) 2 


Sh y ^ NnM ^ ，M n -\ 

(21.36) 

因此，总体比率近似95%的近似置信区间表达式为 


S 体比率近似 95% 的近似置信区间 


p c ±2 sp t 

(21.37) 


对于注册会计师抽样调査，我们可以利用公式 (21. 35) 和表 21. 4中的资料，计算得出女性注册会 
计师比例的估计量为 


_ _ 2 + 8 + ."+9 _ 35 
Pc = 8 + 25 + ••• + 33 = 128 


= 0. 273 4 


在表 21. 6中我们给出了估计标准误差所需要的部分计算 结果： 

表 21. 6 注册会计师抽样调查中估计标准误差所需要的部分计算结果，其中尿： = 0. 273 4 


事务所 U) 

Mi 

ai 

(a ( -0.273 4i»/0 2 

1 

8 

2 

[2-0. 2734 ⑻] 2 =0. 035 0 

2 

25 

8 

[8-0. 273 4(25) ] 2 = 1.357 2 

3 

4 

0 

[0-0. 273 4(4) ] 2 = 1.196 0 

4 

17 

6 

[6 - 0. 273 4(17)? = 1.828 4 

5 

7 

1 

[1 -0. 273 4(7)] 2 =0. 835 0 

6 

3 

2 

[2-0. 273 4(3)] 2 = 1.3919 

7 

15 

2 

[2-0. 273 4(15)] 2 =4.414 2 

8 

4 

0 

[0-0. 273 4(4)] 2 = 1. 196 0 

9 

12 

5 

[5 -0. 273 4(12) ] 2 = 2. 955 6 

10 

33 

_9 

[9 -0.273 4(33)] 2 =0,000 5 


总计 128 

35 

^ 15. 209 8 


(ai -p c Mi) : 
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因此，有 


XU-pcM t ) 2 = 15.209 8 




1\ 1 000 - 10 1 

15. 209 8 

/L (1 000)(10)(12 ) 2 J 

10-1 




0, 034 1 


所以利用公式 （21. 37) 我们可以得到女性注册会计师比例近似95%的置信区 间为： 0. 273 4 ±2 
(0.034 1) =0.273 4 ±0.068 2,或者 0. 205 2—0. 341 6。 


确定样本容量 


群一旦形成以后，样本容量确定的基本问题即为选取群的数量〜群即抽样的过程类似于其 
他的抽样方法。首先选 择忍的 数值，即允许误差的数值，确定一个可以接受的精度水平，然后建 
立满足需要的精度《数值的计算公式。 

每群平均个体数量和群与群之间的方差是确定样本中包含群的数量多少的关键因素。如果整 
群比较相似，则群与群之间的方差比较小，因此抽样群数将会减少。除此之外，如果每个群的平 
均个体数量较大，则抽样群数将会减少。精确确定样本容量的公式将会在有关抽样的比较高级的 
教材中进行论述。 



方 法 

14. 某个总体包含 N =25 个群， M =300 个个体，从中选择 4 个群。每个群的脱，々，和 

►山数 值如下 所示： 

自测题 


整群 （0 

Mi 

Xi 

a 

1 

7 

95 

1 

2 

18 

325 

6 

3 

15 

190 

6 

4 

10 

140 

2 

总计 

50 

750 

15 


a . 计算总体均值、总体总量和总体比率的点估计值。 

b . 估计 ( a ) 中每个估计量的标准误差。 

c . 建立总体均值近似 95% 的置信区间。 

d . 建立总体总量近似 95% 的置信区间。 

e . 建立总体比率近似 95% 的置信区间。 
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15. 某个总体包含 /V = 30 个群 ， M = 600 个个体，从中选择6个群。每个群的恥，％•和&数值如 
下 所示： 


整群 （ i ) 

M t 

X i 

a 

1 

35 

3 500 

3 

2 

15 、 

965 

0 

3 

12 

960 

1 

4 

23 

2 070 

4 

5 

20 

1 100 

3 

6 

25 

1 805 

2 

总计 

130 

10 400 

13 


a . 计算总体均值、总体总量和总体比率的点估计值。 

b . 建立总体均值近似95%的置信区间。 

c . 建立总体总量近似95%的置信区间。 

d . 建立总体比率近似95%的置信区间。 

应用 

16. 某个公共事业公司正在进行一项调查，以获得影响机械工程师在新的商务建筑物中选择供 
暖、通风和空调系统的因素。在公共事业公司的服务区域内，从事供暖、通风和空调系统设 
计施工的公司总共有120家。该公共实业公司计划采用整群抽样的调查方式，每个公司为一 
个群，对于抽样的公司中的每个机械工程师均进行调查采访。这120个公司雇用了大约500 
名机械工程师，从其中挑选出10个公司，将每个受采访者的年龄和是否参加地方大学培训记 
录下来。 


整群 （ i ) 

Mt 

被采访者年龄的总和 

参与地方大学培训的次数 

1 

12 

520 

8 

2 

1 

33 

0 

3 

2 

70 

1 

4 

1 

29 

1 

5 

6 

270 

3 

6 

3 

129 

2 

7 

2 

102 

0 

8 

1 

48 

1 

9 

9 

337 

7 

10 

13 

462 

12 

总计 

50 

2 000 

35 


a . 估计从事这种工作的机械工程师的平均年龄。 
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b . 在公共事业公司的服务区域内，估计参加过地方大学培训的工程师比率。 

C. 建立机械工程师平均年龄近似 95% 的置信区间。 

d . 在公共事业公司的服务区域内，对参加过地方大学培训的机械工程师的比率建立近似 95% 
的置信区间。 

17. 某家全囯性的房地产公司近期收购了一家小型公司，这家小型公司在洛杉矶和南加利福尼亚 
拥有 150 个办事处和6 000 名代理人，这家全国性的房地产公司为了获悉它的新雇员的态度看 
法和其他特性，进行了一项抽样调查。他们从新公司中抽取了 8个办事处，对这些办事处所 
有的代理人进行了问卷调查，调查结果如下 所示： 


办事处 

代理人 

平均年龄 

大学毕业生数 

男代理人数 

1 

17 

37 

3 

4 

2 

35 

32 

14 

12 

3 

26 

36 

8 

7 

4 

66 

30 

38 

28 

5 

43 

41 

18 

12 

6 

12 

52 

2 

6 

7 

48 

35 

20 

17 

8 

57 

44 

25 

26 


a . 估计代理人的平均年龄。 

b . 估计其中大学毕业生以及男性代理人的比率。 

c . 建立代理人平均年龄近似 95% 的置信区间。 

d . 建立大学毕业生比率近似 95% 的置信区间。 

e . 建立男性代理人比率近似95%的置信区间。 


21.7 系统抽样 

我们经常用系 统抽样 (systematic sampling ) ,对于某些抽样情况，尤其是大型的总体，通过先 
确定随机数，然后根据抽样框寻找与随机数相对应的个体的方法选取一个简单随机样本，这种方 
法是需要耗费大量时间的。在这种情形下，我们可以用系统_样代替简单随机抽样。例如，从容 
量为5 000的总体中抽取一个容量为50的样本，我们可以从总体每100个个体中选取一个个体。 
对于这种情形的系统样本，我们从抽样框前100个个体中随机选择 一个； 然后根据所选的第一个 
个体位置，在后面的抽样框中每隔100个再选择一个，这样就可以得到样本中其余的个体。事实 
上，我们通过对总体进行系统的排列，在随机抽取第一个个体之后，每隔100个选择一个个体， 
就可以得到一个容量为50的样本，利用这种方式选择容量为50的样本常常比利用简单随机抽样 
方式更加容易。由于第一个个体的选择是随机的，因此系统样本常常假定具有简单随机样本的性 
质。如果抽样框是由总体中的个体随机排列而成的，则这种假设通常是可行的。 
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本章我们扼要介绍了有关调查抽样的一些知识，抽样调查的目的在于搜集比如总体均值、总 
体总量和总体比率等总体参数的资料。抽样调查作为搜集资料的方法与进行实验所产生的数据是 
相应的。在进行抽样调查的过程中，确定资料搜集的抽样计划设计是非常重要的。而在进行实验 
时，决定产生哪些数据的实验设计问题同样也是非常重要的。 

抽样调查有可能会产生两种类型的 误差： 抽样误差和非抽样误差。抽样误差是由于仅仅使用 
同一个样本而不是整个总体估计总体参数而产生的误差。非抽样误差则包含所有可能出现的其他 
类型的误差，比如测量误差、访谈误差、缺乏回复误差和处理误差等等。我们可以通过设计合适 
的问卷调查表、对访谈员进行全面培训和仔细审核数据等手段，控制非抽样误差。而且通过选取 
合适的样本设计和样本容量 ，可以 使抽样误差最小化。 

本章我们讨论了四种.常用的样本 设计： 简单随机抽样、分层简单随机抽样、整群抽样和系统 
抽样。样本设计的目的是花费最少的经费得到最为准确的估计。如果将总体划分为若干层，并使 
各层的个体相对一致，则分层简单随机抽样所获得的精度将比简单随机抽样所获得的精度更高（近 
似置信区间范围更窄）。如果将个体纳入每一个群中，并使每个群的所有个体在地理上连成一体， 
则整群抽样就能减少调查采访的费用。对于这种情形，利用整群抽样我们可以使每个单位成本均 
获得较高的精度。我们经常利用系统随机抽样来代替简单随机抽样。 


水语辞义 


个体： 作为数据来源的一个实体。 

总体： 有待研究的所有个体集合。 

样本： 总体的子集。 

目标总体： 有待进行统计推断的总体。 

抽样 总体： 样本来源的总体。 

抽样 单位： 供抽样选取的单位，一个抽样单位可以包含很多个体。 

抽 样框： 有待研究的抽样单位的表单，根据抽样框选择单位以获得样本。 

概率抽样方法 •. 一种可以计算每个可能样本的概率的抽样方法。 

非概率抽样方法： 一种抽样方法，这种方法无法计算每个可能样本的概率。 

方便 抽样： 一种基于方便性原则来选择个体的非概率抽样方法。 

判断 抽样： 一种根据对所研究问题的判断来选择个体的非概率抽样方法。 

抽样 误差： 由于使用一个样本，而不是整个总体来估计总体参数而产生的误差。 

非抽样 误差： 除了抽样误差以外所有的误差，比如测量误差、调查误差和处理误差。 

简单随机 样本： 按一种方法选取的样本，这种方法可以使每一个容量为 n 的样本被选中的概率相 
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同。 

允许 误差： 一个数值，点估计值加上或者减去它可以建立近似95%的置信区间。它是点估计标准 
误差的2倍。 

分层简单随机 抽样： 一种选择样本的概率方法，它首先将总体划分为层，然后从每个层抽取一个 

简单随机样本。 

整群抽样： 一种选择样本的概率方法，它首先将总体划分为群，然后从其中选取一个或者多个 
群，在单阶段整群抽样中，中选群的每一个个体均被 选中； 在二阶段整群抽样中，从 
已经中选的个体中再选取一个样本。 

系统 抽样： 一种选择样本的方法，这种方法首先随机选择第一个个体，然后 每隔& 个距离再选择 
一个个体。 


f 要公 



简单随机抽样 


总体均值的区间估计 

X ± Za/lCTj 

总体均值的标准误差估计值 


总体均值的区间估计 

总体均值近似 95% 的置信区间 

总体总量的点估计 

标准误差的估计量 



X i Za/2Sx 


无± 2匁 


X = Nx 


sk = Ns- x 


Nx ±2 s x 


( 21 . 1 ) 

( 21 . 2 ) 

(21.3) 

(21.4) 

(21.5) 

( 21 . 6 ) 

( 21 . 8 ) 


总体总量近似 95% 的置信区间 
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总体比率标准误差的估计值 





(21.9) 

总体比率近似95%的置信区间 

p ± 2sp 

(21.10) 

估计总体均值的样本容置 

Ns 2 

iV (争) +? 

(21.12) 

估计总体总置的样本容置 


* 


Ns 2 

\4N) s 

(21.13) 

估计总体比率的样本容置 

n - _ A / P ( 1 一 P )_ 

+ P(1-P) 

(21.14) 

分层简单随机抽样 



总体均值的点估计 

x 

k = l 

(21.15) 

总体均值标准误差的估计置 




:為 i 靡-取) f 

▼ fi ■ \ 

(21.16) 

总体均值近似95%的置信区间 

x sl ± 2s^ 

(21.17) 

总体总置的点估计 

X = Nx^ 

(21.18) 

/i 
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X 的标准误差估计值 

Sx~ J ^ Sx ^ 

(21.19) 

总体总置 95% 的近似置信区间 

Nxsi ±2 sx 

(21.20) 

总体比率的点估计 

/ i = 1 

(21. 21) 

标准误差的估计值 



巧- : 


(21. 22) 

总体比率近似 95% 的置信区间 

± 2 s ~ p . 

(21.23) 

总样本容量#|在层间的 分配： 

Neyman 分配 



一 { NhSh \ 
nh-nl H 

、 X / v A sJ 

h - \ 

(21. 24) 

估计总体均值时的样本容量 

( t^sX 



— \ k=\ ! 

h=i 

(21.25) 

估计总体总量时的样本容量 

( t^Y 



„ \ /i = i / 

/i = i 

(21.26) 

估计总体比率时的样本容量 

r 

( 系 办） ） 

71 — h 

f ( f ~) + t ^ N h p h ( l - p k ) 

h = 1 

(21.27) 

j 

i 

i 



总样本容量 n 在层间的比例分配 
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整群抽样 

总体均值点估计 


总体均值的标准误差估计值 



i=l 



总体均值近似95%的置信区间 

总体总量的点估计 

X 的标准误差估计量 

总体总量近似95%的置信区间 

总体比率点估计 


x c ± 2 si 


X -Mxc 


sx - Msx c 


Mx c ±2 sk 


la ； 

%Mi 

i=l 

pc 的标准误差估计量 


. Af 、 X (ai~p c Mi ) 2 

^ = V 


(21. 28) 


(21. 29) 


(21.30) 


(21.31) 


(21.32) 


(21.33) 

(21.34) 


(21. 35) 


(21.36) 
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总体比率近似95%的近似置信区间 

p c ±2 sp r (21.37) 


f 卜免樣 


18. 为了确定 Miller Lite 啤酒的系列广告的消费者认可程度 ， Louis Harris 在全国范围内对363名收 
看过 Miller Lite 广告的成年人进行了 一项民意测验 （ f / S/l Today, November 17, 1997) ，以下的回 
复是根据调查结果得出的 （注： 由于仅仅调查了很小一部分观众，因此在任何包含标准误差的 
公式中，可令 ( N - n ) /~=1)。 

a . 有19%的受访者表示他们对这个新广告感觉不错，请对此建立总体比率95%的置信区间。 

b . 有31%的受访者表示他们不喜欢这个新广告，请建立总体比率95%的置信区间。 

c . 有17%的受访者认为这个新广告很有效，对认为广告很有效的成年人比率建立95%的置信 
区间。 

d . Louis Harris 的调查报告显示允许误差为5% ,这个结果代表着什么？对他们得到这个结果 
你怎样理解？ 

e . 对于这样的抽样调查，怎样才能不产生抽样偏差？ 

19. 《华尔街曰报》就它的关联期刊面向它的订阅者进行了一项调查，第一个问题调查了 504名受 
访者，询问他们在旅行时是否携带便携式电脑，55%的受访者回答说携带。另一个问题调查 
的是他们在旅行时是否使用特快专递或者包裹邮寄服务，31%的被采访者给出了肯定的回答 
( The Wall Street Journal Interactive Edition Subscriber Survey, 2000) 0 

a . 建立使用便携式电脑的受访者比率的标准差估计。 

b . 建立使用特快专递或者包裹邮寄服务的受访者比率的标准差估计。 

c . ( a ) 和 （ b ) 中的标准差估计是否一样？如果它们不同，请解释原因。 

d . 建立使用便携式电脑的受访者比率的95%的置信区间。 

e . 建立使用特快专递或者邮寄包裹服务的受访者比率的95%的置信区间。 

20. 对一家制造公司的职员进行了一项关于生活质量的调查，在这家制造公司的3000名雇员中， 
抽取了 300名进行问卷调查，获得了 200份有效调查问卷，回复率为67%。 

a . 样本中年薪平均值=23 200美元，标准差 s = 3 000 美元，对总体的平均年薪建立近似 
95%的置信区间。 

b . 利用 （ a ) 中的资料，对3000名雇员的年薪总量建立近似95%的置信区间。 

c . 73%的被调查者认为他们对工作总体上比较满意，对这一总体比率建立近似95%的置信 
区间。 

d . ( c ) 中的结果是否存在误差？如果你知道受访者是匿名的，你的结论是否会发生改变？ 
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21. 美国参议院司法委员会的报告显示了 1991年每个州的杀人犯数量，在印第安纳州、俄亥俄 
州、.肯塔基州杀人犯的数量分别为380, 760和260人。为了更好地了解受害者和死亡原因， 
他们采用分层随机抽样得到了以下的调查 结果： 


层 

样本容置 

枪击死亡 

殴打死亡 

黑人受害者 

印第安纳州 

30 

10 

9 

21 

俄亥俄州 

45 

19 

12 

34 

肯塔基州 

25 

7 

11 

15 


a . 建立印第安纳州枪击死亡比率的近似95%的置信区间 。 

b . 计算俄亥俄州枪击死亡总量的估计值。 

c . 建立俄亥俄州枪击死亡比率的近似95%的置信区间。 

d . 建立三个州枪击死亡比率的近似95%的置信区间。 

22. 重新参考练习21中的数据。 

a . 计算三个州殴打死亡总量的估计值。 

b . 建立三个州殴打死亡比率近似95%的置信区间。 

c . 建立黑人受害者比率的近似95%的置信区间。 

d . 计算黑人受害者总量的估计值。 

23. 利用分层简单随机抽样获得银行顾客的一个样本，以了解银行顾客的某些意见以及一些统计 
上的问题。分层是以2001年6月30日账户的存款余额为根据的，各层账户余额的分布以及 
标准差结果如下 所示： 


层（美元 } 

账户数量 

账户余额的标准差 

0. 00—1 000. 00 

3 000 

80 

1 000. 01—2 000. 00 

600 

150 

2 000. 01—5 000. 00 

250 

220 

5 000.01—10 000. 00 

100 

700 

超过 10 000. 00 

50 

3 000 


a . 假设每一层的抽样单位成本是近似相等的，请确定样本中所应包含的人数。并假设估计账 
户的平均余额允许误差为5=20美元。 

b . 利用 Neyman 分配确定每一层的样本个体数量。 

24. 某个公共事业代理机构打算了解某个特定城市小型私人护理医院的住院病人情况。在这个城 
市共有100家私人护理医院，总共照顾着4800名病人，从中抽取了 6家作为样本，对这6家 
医院中的每一个病人均进行了访谈，抽样调查的部分结果如下 所示： 

护理医院 住院人数 病人的平均年龄 残疾病人数置 

1 14 61 12 


2 


7 


74 


2 
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护理医院 

住院人数 

病人的平均年龄 

残疾病人数置 

3 

96 

78 

30 

4 

23 

69 

8 

5 

71 

73 

10 

6 

29 

84 

22 


a . 建立这个城市私人护理医院住院病人的平均年龄的估计值。 

b . 建立这个城市私人护理医院中的残疾病人比率的近似95%的置信区间。 

c . 估计这个城市私人护理医院所住病人的总数。 
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附录 B 表格 

表格 1 标准正态分布 


表中的值给出了曲线下方、水平线上方和均值与 
标准差 z 之间的面积。例如 ， z = 1.25, 在均值和 z 之 
f 司、曲线之下的面积是 0.394 4。 



Z 

.00 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

.0 

.000 0 

.004 0 

.008 0 

.012 0 

.016 0 

‘019 9 

• 023 9 

• 027 9 

.0319 

.035 9 

.1 

.039 8 

.043 8 

.047 8 

.051 7 

• 055 7 

• 059 6 

.063 6 

• 067 5 

.0714 

.075 3 

.2 

.079 3 

.083 2 

• 087 1 

.0910 

‘094 8 

.098 7 

. 102 6 

. 106 4 

. 1103 

. 114 1 

.3 

. 1179 

. 121 7 

. 125 5 

. 129 3 

. 133 1 

. 136 8 

. 140 6 

. 144 3 

. 148 0 

. 1517 

.4 

. 155 4 

.1591 

. 162 8 

. 166 4 

. 170 0 

. 173 6 

. 177 2 

. 180 8 

. 184 4 

. 187 9 

.5 

.1915 

. 195 0 

. 198 5 

.2019 

.205 4 

.208 8 

.212 3 

.215 7 

.219 0 

.222 4 

.6 

.225 7 

.2291 

.232 4 

.235 7 

.238 9 

.242 2 

.245 4 

.248 6 

.251 8 

• 254 9 

.7 

.258 0 

.261 2 

• 264 2 

• 267 3 

.270 4 

.273 4 

.276 4 

.279 4 

.282 3 

.285 2 

.8 

.288 1 

.291 0 

.293 9 

.296 7 

.299 5 

.302 3 

.305 1 

.307 8 

• 3106 

.313 3 

.9 

.315 9 

• 3186 

.321 2 

.323 8 

.3264 

.328 9 

.331 5 

.334 0 

• 336 5 

.338 9 

1.0 

• 341 3 

.343 8 

• 346 1 

,348 5 

.350 8 

.353 1 

• 355 4 

• 357 7 

.359 9 

.362 1 

1. 1 

• 364 3 

.366 5 

.368 6 

.370 8 

.372 9 

• 374 9 

• 377 0 

• 379 0 

• 381 0 

.383 0 

1.2 

.384 9 

.386 9 

.388 8 

.390 7 

.392 5 

.394 4 

,396 2 

• 398 0 

• 399 7 

.4015 

1.3 

.403 2 

.404 9 

.406 6 

.408 2 

.409 9 

.411 5 

.413 1 

• 414 7 

.416 2 

• 417 7 

1,4 

.419 2 

• 420 7 

.422 2 

• 423 6 

.425 1 

.426 5 

.427 9 

.429 2 

.430 6 

• 4319 

1.5 

.433 2 

• 434 5 

.435 7 

• 437 0 

.438 2 

• 439 4 

• 440 6 

• 441 8 

.442 9 

.444 1 

1.6 

• 445 2 

.446 3 

.447 4 

.448 4 

• 449 5 

.450 5 

• 451 5 

.452 5 

.453 5 

.454 5 

1.7 

.455 4 

,456 4 

.457 3 

.458 2 

.459 1 

.459 9 

.460 8 

. 461 6 

.462 5 

.463 3 

L8 

.464 1 

.464 9 

.465 6 

.466 4 

.467 1 

.467 8 

• 468 6 

■ 469 3 

.469 9 

.470 6 

1.9 

.471 3 

.471 9 

.472 6 

.473 2 

.473 8 

.474 4 

.475 0 

• 475 6 

■ 476 1 

.476 7 

2.0 

• 477 2 

.477 8 

.478 3 

• 478 8 

.479 3 

.479 8 

• 480 3 

.480 8 

.481 2 

• 4817 

2. 1 

.482 1 

.482 6 

• 483 0 

•‘483 4 

• 483 8 

.484 2 

• 484 6 

.485 0 

• 485 4 

‘485 7 

2.2 

,486 1 

• 486 4 

.486 8 

.487 1 

• 487 5 

• 487 8 

• 488 1 

• 488 4 

• 488 7 

.489 0 

2.3 

.489 3 

.489 6 

.489 8 

.4901 

.490 4 

.490 6 

.490 9 

• 491 1 

.491 3 

.4916 

2.4 

• 491 8 

.492 0 

.492 2 

• 492 5 

• 492 7 

.492 9 

• 493 1 

.493 2 

.493 4 

.493 6 

2.5 

.493 8 

.494 0 

• 494 1 

• 494 3 

.494 5 

.494 6 

.494 8 

.494 9 

.495 1 

.495 2 

2.6 

• 495 3 

.495 5 

• 495 6 

• 495 7 

■ 495 9 

.496 0 

.496 1 

• 496 2 

.496 3 

• 4964 

2.7 

.496 5 

• 496 6 

.496 7 

.496 8 

• 496 9 

.497 0 

• 497 1 

• 497 2 

,497 3 

.497 4 

2.8 

.497 4 

.497 5 

.497 6 

.497 7 

.497 7 

.497 8 

.497 9 

• 497 9 

• 498 0 

.4981 

2.9 

.498 1 

.498 2 

• 498 2 

.498 3 

.498 4 

.498 4 

.498 5 

.498 5 

• 498 6 

• 498 6 

3.0 

,498 6 

.498 7 

.498 7 

.498 8 

.498 8 

.498 9 

.498 9 

.498 9 

• 499 0 

.499 0 



附录 B 表格963 


表格 2 【分布 



表中数字给出与 t 分布上侧的面积或概率相 
应的 t 值。例如，自由度为10和上侧面积为 
0. 05时， to. os = 1. 812。 


自由度 



上侧的面积 



• 10 

.05 

.025 

.01 

.005 

1 

3.078 

6.314 

12, 706 

31.821 

63. 657 

2 

1.886 

2. 920 

4. 303 

6. 965 

9. 925 

3 

1.638 

2. 353 

3. 182 

4. 541 

5.841 

4 

1.533 

2. 132 

2.776 

3.747 

4. 604 

5 

1.476 

2.015 

2. 571 

3.365 

4. 032 

6 

1.440 

1.943 

2.447 

3. 143 

3.707 

7 

1.415 

1.895 

2. 365 

2. 998 

3.499 

8 

1.397 

1.860 

2. 306 

2. 896 

3.355 

9 

1.383 

1.833 

2. 262 

2. 821 

3.250 

10 

1.372 

1.812 

2. 228 

2.764 

3, 169 

11 

1.363 

1.796 

2, 201 

2.718 

3. 106 

12 

1.356 

1.782 

2. 179 

2.681 

3. 055 

13 

1.350 

1.771 

2. 160 

2.650 

3.012 

14 

1,345 

1.761 

2. 145 

2. 624 

2. 977 

15 

1.341 

1.753 

2. 131 

2. 602 

2. 947 

16 

1.337 

1.746 

2. 120 

2.583 

2. 921 

17 

1.333 

1.740 

2. 110 

2. 567 

2.898 

18 

1.330 

1.734 

2. 101 

2. 552 

2. 878 

19 

1.328 

1.729 

2. 093 

2. 539 

2. 861 

20 

1.325 

1.725 

2. 086 

2. 528 

2. 845 

21 

1.323 

1.721 

2.080 

2.518 

2. 831 

22 

1.321 

1.717 

2. 074 

2. 508 

2.819 

23 

1.319 

1.714 

2. 069 

2.500 

2.807 

24 

1.318 

1.711 

2. 064 

2.492 

2. 797 

25 

1,316 

1.708 

2. 060 

2. 485 

2.787 

26 

1.315 

1.706 

2. 056 

2.479 

2.779 

27 

1.314 

1.703 

2.052 

2.473 

2. 771 

28 

1.313 

1.701 

2. 048 

2.467 

2. 763 

29 

1.311 

1.699 

2. 045 

2.462 

2, 756 

30 

1.310 

1.697 

2.042 

2. 457 

2, 750 

40 

1.303 

1-684 

2. 021 

2. 423 

2. 704 

60 

1.296 

1.671 

2.000 

2. 390 

2. 660 

120 

1.289 

1.658 

1.980 

2.358 

2.617 

00 

1.282 

1-645 

1.960 

2. 326 

2. 576 


该表经牛津大学出版社许可重印，基于 Biometrika Trustees 的表 12, £ 分布的百分点见 E.S. Pearson 和 H. 0. Hartley, 
Biomelrika 统计表， 1966 年第 1 卷第 3 版。 



8 

警 

7. 879 44 

10. 596 6 

12. 838 1 

14. 860 2 

16. 749 6 

18. 547 6 

20. 277 7 

21.955 0 

23.589 3 

25. 188 2 

26. 756 9 

28. 299 5 

29. 819 4 

31.319 3 


• 

6. 634 90 

9. 210 34 

11.344 9 

13. 276 7 

15. 086 3 

16.811 9 

18. 475 3 

20. 090 2 

21. 666 0 

23. 209 3 

24. 725 0 

26. 217 0 

27. 688 3 

29. 141 3 


to 

<N 

O 

• 

5. 023 89 

7. 377 76 

9. 348 40 

11. 143 3 

12. 832 5 

14. 449 4 

16.012 8 

17. 534 6 

19. 022 8 

20. 483 1 

21.920 0 

23. 336 7 

24. 735 6 

26. 119 0 


s 

• 

3. 841 46 

5. 991 47 

7.814 73 

9.487 73 

11.070 5 

12. 591 6 

14. 067 1 

15. 507 3 

16. 919 0 

18. 307 0 

19. 675 1 

21. 026 1 

22. 362 1 

23. 684 8 


o 

• 

2. 705 54 

4. 605 17 

6. 251 39 

7.779 44 

9. 236 35 

10. 644 6 

12.017 0 

13. 361 6 

14. 683 7 

15.987 1 

17.275 0 

18. 549 4 

19.811 9 

21.064 2 

章 

丄 1 

• 

. 015 790 8 

. 210 720 

. 584 375 

1.063 623 

1.610 31 

2. 204 13 

2. 833 11 

3. 489 54 

4.168 16 

4.865 18 

5.577 79 

6.303 80 

7. 041 50 

7.789 53 


tn 

ON 

• 

393 214x 1(T 8 

.102 587 

• 351 846 

.710 721 

1. 145 476 

1.635 39 

2. 167 35 

2. 732 64 

3. 325 11 

3, 940 30 

4. 574 81 

5. 226 03 

5. 891 86 

6. 570 63 


ON 

• 

982 069xl0_ 9 

. 050 635 6 

.215 795 

. 484 419 

.831 211 

1. 237 347 

1.689 87 

2. 179 73 

2. 700 39 

3. 246 97 

3.815 75 

4. 403 79 

5. 008 74 

5. 628 72 


o\ 

ON 

157 088 x 1(T 9 

. 020 100 7 

.114 832 

.297 110 

. 554 300 

, 872 085 

1. 239 043 

1. 646 482 

2. 087 912 

2. 558 21 

3.053 47 

3. 570 56 

4. 106 91 

4. 660 43 


ON 

ON 

9 

392 704 x 10_ 10 

. 010 025 1 

.071 721 2 

. 206 990 

• 411 740 

. 675 727 

• 989 265 

1.344 419 

1.734 926 

2. 155 85 

2. 603 21 

3. 073 82 

3. 565 03 

4.074 68 
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.005 

32. 801 3 

34. 267 2 

35.718 5 

37 - 156 4 

38, 582 2 

39. 996 8 

41.401 0 

42. 795 8 

44. 181 3 

45. 558 5 

46. 927 8 

48. 289 9 

49. 644 9 

50. 993 3 

52. 335 6 

53. 672 0 

66, 765 9 

79. 490 0 

91.951 7 

104. 215 

116.321 

128. 299 

140. 169 


o 

• 

30, 577 9 

31.999 9 

33. 408 7 

34. 805 3 

36. 190 8 

37. 566 2 

38. 932 1 

40. 289 4 

41.638 4 

42. 979 8 

44.314 1 

45. 641 7 

46. 963 0 

48. 278 2 

49. 587 9 

50. 892 2 

63. 690 7 

76. 153 9 

88. 379 4 

100. 425 

112. 329 

124. 116 

135. 807 


.025 

27. 488 4 

28. 845 4 

30. 191 0 

31.526 4 

32. 852 3 

34. 169 6 

35. 478 9 

36. 780 7 

38. 075 7 

39. 364 1 

40. 646 5 

41. 923 2 

43. 194 4 

44. 460 7 

45. 722 2 

46. 979 2 

59. 341 7 

71.420 2 

83. 297 6 

95. 023 1 

106. 629 

118.136 

129. 561 


S 

争 

24. 995 8 

26. 296 2 

27. 587 1 

28. 869 3 

30. 143 5 

31.410 4 

32. 670 5 

33. 924 4 

35. 172 5 

36.415 1 

37. 652 5 

38. 885 2 

40. 113 3 

41.337 2 

42. 556 9 

43. 772 9 

55. 758 5 

67. 504 8 

79. 081 9 

90. 531 2 

101. 879 

113. 145 

124. 342 


o 

r-H 

. 

22. 307 2 

23. 541 8 

24. 769 0 

25. 989 4 

27. 203 6 

28.412 0 

29. 615 1 

30. 813 3 

32. 006 9 

33.196 3 

34.381 6 

35. 563 1 

36. 741 2 

37.915 9 

39. 087 5 

40. 256 0 

51.805 0 

63. 167 1 

74. 397 0 

85. 527 1 

96. 578 2 

107. 565 

118.498 

上侧分布 

§ 

• 

8. 546 75 

9.312 23 

10, 085 2 

10. 864 9 

11.650 9 

12. 442 6 

13. 239 6 

14. 041 5 

14. 847 9 

15. 658 7 

16. 473 4 

17.291 9 

18. 113 8 

18. 939 2 

19.767 7 

20. 599 2 

29. 050 5 

37.688 6 

46. 458 9 

55. 329 0 

64. 277 8 

73. 291 2 

82. 358 1 


a\ 

* 

7. 260 94 

7. 961 64 

8. 671 76 

9. 390 46 

10. 11 70 

10. 850 8 

11.591 3 

12. 338 0 

13. 090 5 

13. 848 4 

14.611 4 

15.379 1 

16. 151 3 

16. 927 9 

17. 708 3 

18.492 6 

26. 509 3 

34.764 2 

43.187 9 

51.739 3 

60. 391 5 

69. 126 0 

77. 929 5 


.975 

6. 262 14 

6, 907 66 

7.564 18 

8. 230 75 

8, 906 55 

9. 590 83 

10. 282 93 

10. 982 3 

11.688 5 

12.401 1 

13.119 7 

13.843 9 

14. 573 3 

15. 307 9 

16. 047 1 

16. 790 8 

24. 433 1 

32. 357 4 

40. 481 7 

48. 757 6 

57.153 2 

65. 646 6 

74. 221 9 


Q\ 

G\ 

• 

5. 229 35 

5.812 21 

6. 407 76 

7.014 91 

7.632 73 

8. 260 40 

8. 897 20 

9. 542 49 

10. 195 67 

10. 856 4 

11.524 0 

12. 198 1 

12. 878 6 

13.564 8 

14. 256 5 

14.953 5 

22. 164 3 

29. 706 7 

37.484 8 

45. 441 8 

53. 540 0 

61.754 1 

70. 064 8 


.995 

4. 600 94 

5. 142 24 

5. 697 24 

6. 264 81 

6. 843 98 

7. 433 86 

8. 033 66 

8. 642 72 

9. 260 42 

9. 886 23 

10.519 7 

11. 160 3 

11.807 6 

12.461 3 

13. 121 1 

13.786 7 

20. 706 5 

27. 990 7 

35. 534 6 

43. 275 2 

51. 172 0 

59. 196 3 

67.327 6 

- 
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表格 5 二项分布概率 

表中的数字给出 n 次二项分布实验中， 岀现％ 次成功的概率，其中 p 是一次实验中成功的概 
率。例如，具有成功率为 0.05 的六次实验中，两次成功的概率是 0.030 5。 


P 


n 

X 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

2 

0 

.980 1 

.960 4 

.940 9 

.921 6 

.902 5 

. 883 6 

.864 9 

.846 4 

. 828 1 


1 

.019 8 

.039 2 

.058 2 

.076 8 

.095 0 

. 1128 

. 130 2 

,147 2 

. 163 8 


2 

• 000 1 

• 000 4 

.000 9 

.001 6 

.002 5 

.003 6 

• 004 9 

• 006 4 

.008 1 

3 

0 

,970 3 

.941 2 

.9127 

. 884 7 

.857 4 

.830 6 

• 804 4 

• 778 7 

• 753 6 


1 

.029 4 

,057 6 

.084 7 

. 1106 

. 135 4 

. 159 0 

. 181 6 

.203 1 

.223 6 


2 

• 000 3 

.0012 

.002 3 

.004 6 

.007 1 

.010 2 

.013 7 

• 017 7 

.022 1 


3 

.000 0 

.000 0 

.000 0 

.000 1 

• 000 1 

.000 2 

.000 3 

• 000 5 

.000 7 

4 

0 

.960 6 

.922 4 

.885 3 

.849 3 

• 814 5 

.780 7 

• 748 1 

• 7164 

• 685 7 


1 

.038 8 

.075 3 

. 109 5 

. 141 6 

• 171 5 

• 199 3 

.225 2 

.249 2 

.271 3 


2 

.000 6 

.002 3 

• 005 1 

,008 8 

• 013 5 

.019 1 

• 025 4 

.032 5 

.040 2 


3 

• 000 0 

• 000 0 

.000 1 

,000 2 

.000 5 

.000 8 

.001 3 

.001 9 

.002 7 


4 

,000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 1 

5 

0 

'.951 0 

.903 9 

. 858 7 

.815 4 

• 773 8 

.733 9 

.695 7 

.659 1 

.624 0 


1 

.048 0 

. 092 2 

. 132 8 

. 169 9 

.203 6 

.234 2 

.261 8 

.286 6 

, 308 6 


2 

.0010 

.003 8 

. 008 2 

.014 2 

.0214 

.029 9 

.039 4 

.049 8 

.061 0 


3 

,000 0 

.000 1 

. 000 3 

.000 6 

.001 1 

,001 9 

• 003 0 

• 004 3 

• 006 0 


4 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 1 

.000 1 

.000 2 

• 000 3 


5 

.000 0 

.000 0 

• 000 0 

• 000 0 

. 000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

6 

0 

.941 5 

■ 885 8 

.833 0 

.782 8 

.735 1 

.689 9 

,647 0 

.606 4 

.567 9 


1 

■ 057 1 

. 108 5 

. 154 6 

. 195 7 

.232 1 

.264 2 

.292 2 

■ 3164 

. 337 0 


2 

.0014 

.005 5 

• 012 0 

.020 4 

.030 5 

.042 2 

.055 0 

.068 8 

• 083 3 


3 

.000 0 

.000 2 

• 000 5 

• 001 1 

.002 1 

.003 6 

• 005 5 

.008 0 

.011 0 


4 

.000 0 

• 000 0 

.000 0 

• 000 0 

.000 1 

.000 2 

.000 3 

.000 5 

.000 8 


5 

.000 0 

.000 0 

• 000 0 

.000 0 

. 000 0 

.000 0 

,000 0 

.000 0 

.000 0 


6 

.000 0 

• 000 0 

.000 0 

■ 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

7 

0 

.932 1 

. 868 1 

• 808 0 

.7514 

.698 3 

.648 5 

.6017 

.557 8 

.5168 


1 

.065 9 

. 124 0 

. 174 9 

.219 2 

.257 3 

• 289 7 

• 317 0 

.339 6 

.357 8 


2 

.002 0 

.007 6 

.016 2 

.027 4 

.040 6 

.055 5 

.071 6 

.088 6 

• 106 1 


3 

.000 0 

.000 3 

• 000 8 

.001 9 

• 003 6 

.005 9 

.009 0 

.012 8 

.017 5 


4 

.000 0 

.000 0 

• 000 0 

.000 1 

.000 2 

• 000 4 

.000 7 

.001 1 

.001 7 


5 

. 000 0 

.000 0 

• 000 0 

■ 000 0 

.000 0 

.000 0 

.000 0 

.000 1 

• 000 1 


6 

.000 0 

• 000 0 

.000 0 

.000 0 

• 000 0 

• 000 0 

.000 0 

.000 0 

.000 0 


7 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

,000 0 

.000 0 

8 

0 

.922 7 

• 850 8 

.783 7 

.7214 

.663 4 

.609 6 

■ 559 6 

• 513 2 

.470 3 


1 

,074 6 

. 138 9 

■ 193 9 

.240 5 

.279 3 

.311 3 

.337 0 

.357 0 

.372 1 


2 

• 002 6 

.009 9 

.021 0 

• 035 1 

.051 5 

.069 5 

.088 8 

. 108 7 

. 128 8 


3 

• 000 1 

.000 4 

• 001 3 

.002 9 

.005 4 

. 008 9 

.013 4 

• 0189 

.025 5 


4 

.000 0 

.000 0 

• 000 1 

• 000 2 

• 000 4 

.000 7 

.001 3 

• 002 1 

• 003 1 


5 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 1 

.000 1 

.000 2 


6 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

• 000 0 

.000 0 

,000 0 

.000 0 


7 

.000 0 

.000 0 

.000 0 

. 000 0 

• 000 0 

• 000 0 

.000 0 

.000 0 

.000 0 


8 

• 000 0 

.000 0 

• 000 0 

. 000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 
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(续表) 


P 


n 

X 

.01 

.02 

,03 

.04 

.05 

.06 

.07 

.08 

.09 

9 

0 

.9135 

. 833 7 

.760 2 

.692 5 

.630 2 

.573 0 

.520 4 

.472 2 

• 427 9 


1 

• 083 0 

. 153 1 

.211 6 

.259 7 

.298 5 

.329 2 

.352 5 

• 369 5 

■ 380 9 


2 

.003 4 

.012 5 

.026 2 

.043 3 

.062 9 

.084 0 

• 106 1 

. 128 5 

，150 7 


3 

,000 1 

.000 6 

.0019 

.004 2 

.007 7 

.012 5 

.018 6 

.026 1 

.034 8 


4 

.000 0 

.000 0 

.000 1 

• 000 3 

.000 6 

.0012 

• 002 1 

.003 4 

.005 2 


5 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

,000 1 

.000 2 

.000 3 

.000 5 


6 

. 000 0 

.000 0 

,000 0 

.000 0 

,000 0 

• 000 0 

.000 0 

. 000 0 

.000 0 


7 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 


8 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 


9 

.000 0 

.000 0 

‘000 0 

,000 0 

.000 0 

,000 0 

.000 0 

.000 0 

.000 0 

10 

0 

.904 4 

. 817 1 

.737 4 

.664 8 

.598 7 

• 538 6 

.484 0 

.434 4 

.389 4 


1 

,0914 

. 166 7 

.228 1 

.277 0 

.315 1 

.343 8 

• 364 3 

• 377 7 

.385 1 


2 

.004 2 

• 015 3 

.0317 

.051 9 

.074 6 

.098 8 

. 123 4 

. 147 8 

. 171 4 


3 

,0001 

.000 8 

.002 6 

.005 8 

• 010 5 

■ 016 8 

.024 8 

.034 3 

.045 2 


4 

.000 0 

.000 0 

,0001 

.000 4 

.001 0 

.0019 

.003 3 

.005 2 

.007 8 


5 

• 000 0 

. 000 0 

.000 0 

.000 0 

.000 1 

.0001 

.000 3 

.000 5 

.000 9 


6 

.000 0 

. 000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 


7 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 


8 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 0 

.0001 


9 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

, 000 0 

.000 0 

. 000 0 

.000 1 


10 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

12 

0 

• 886 4 

.784 7 

.693 8 

.612 7 

.540 4 

.475 9 

• 4186 

.367 7 

,322 5 


1 

. 107 4 

. 192 2 

.257 5 

• 306 4 

• 341 3 

• 364 5 

.378 1 

• 383 7 

.382 7 


2 

. 006 0 

.021 6 

.043 8 

.070 2 

.098 8 

. 128 0 

. 156 5 

. 183 5 

.208 2 


3 

.000 2 

. 001 5 

.004 5 

.009 8 

• 017 3 

.027 2 

.039 3 

.053 2 

.068 6 


4 

• 000 0 

.000 1 

.000 3 

.000 9 

.002 1 

.003 9 

.006 7 

• 010 4 

• 015 3 


5 

.000 0 

.000 0 

.000 0 

• 000 1 

.000 2 

.000 4 

.000 8 

.0014 

.002 4 


6 

,000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 1 

.000 3 


* 7 

• 000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

• 000 0 


8 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


9 

,000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 0 


10 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

• 000 0 


11 

• 000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 


12 

, 000 0 

. 000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

15 

0 

. 860 1 

.738 6 

.633 3 

.542 1 

.463 3 

• 395 3 

.336 7 

.286 3 

.243 0 


1 

• 130 3 

.226 1 

.293 8 

.338 8 

• 365 8 

.378 5 

,380 1 

• 373 4 

.360 5 


2 

.009 2 

, 032 3 

.063 6 

.098 8 

. 134 8 

. 169 1 

• 200 3 

.227 3 

.249 6 


3 

• 000 4 

.002 9 

.008 5 

‘017 8 

.030 7 

.046 8 

.065 3 

.085 7 

. 107 0 


4 

, 000 0 

.000 2 

.000 8 

.002 2 

.004 9 

.009 0 

.014 8 

.022 3 

.0317 


5 

.000 0 

.000 0 

.000 1 

.000 2 

.000 6 

• 001 3 

.002 4 

.004 3 

.006 9 


6 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

.0001 

.000 3 

.000 6 

.001 1 


7 

.000 0 

.000 0 

• 000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.0001 

.000 1 


8 

. 000 0 

.000 0 

.000 0 

.000 0 

,000 0 

.000 0 

.000 0 

.000 0 

,000 0 


9 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


10 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

. 000 0 

.000 0 


11 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 


12 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 0 

.000 0 

.000 0 


13 

. 000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 


14 

.000 0 

.000 0 

■ 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


15 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 0 

.000 0 

.000 0 

.000 0 
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(续表) 


P 


n 

JC 

.01 

.02 

.03 

.04 

.05 

.06 

.07 

.08 

.09 

18 

0 

. 834 5 

.695 1 

.578 0 

.479 6 

.397 2 

.328 3 

.270 8 

.222 9 

. 183 1 


1 

. 151 7 

.255 4 

.3217 

.359 7 

.376 3 

.377 2 

.366 9 

.348 9 

. 326 0 


2 

.013 0 

.044 3 

.084 6 

. 127 4 

. 168 3 

.204 7 

.234 8 

.257 9 

.274 1 


3 

• 000 7 

.004 8 

.014 0 

• 028 3 

.047 3 

.069 7 

.094 2 

.119 6 

. 144 6 


4 

.000 0 

.000 4 

.001 6 

.004 4 

.009 3 

.0167 

.026 6 

.039 0 

.053 6 


5 

.000 0 

.000 0 

■ 000 1 

.000 5 

• 001 4 

.003 0 

.005 6 

.009 5 

.014 8 


6 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 2 

.000 4 

.000 9 

.001 8 

,003 2 


7 

.000 0 

,000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 1 

.000 3 

.000 5 


8 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 1 


■ 9 

.000 0 

.000 0 

.000 0 

.000 0 

■ 000 0 

.000 0 

.000 0 

.000 0 

. 000 0 


10 

.000 0 

.000 0 

..000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


11 

.000 0 

.000 0 

• 000 0 

• 000 0 

■ 000 0 

.000 0 

. 000 0 

.000 0 

.000 0 


12 

• 000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


13 

• 000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 


14 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


15 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


16 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


17 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


18 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

20 

0 

. 817 9 

. 667 6 

.543 8 

.442 0 

• 358 5 

.290 1 

.234 2 

• 188 7 

. 151 6 


1 

• 165 2 

.272 5 

.336 4 

. 368 3 

.377 4 

.370 3 

. 352 6 

.328 2 

.300 0 


2 

.015 9 

.052 8 

.098 8 

. 145 8 

. 188 7 

.224 6 

.252 1 

.271 1 

.281 8 


3 

.001 0 

• 006 5 

.018 3 

.036 4 

.059 6 

.086 0 

. 113 9 

. 1414 

. 167 2 


4 

.000 0 

.000 6 

■ 002 4 

. 006 5 

.0133 

.023 3 

.036 4 

.052 3 

.070 3 


5 

• 000 0 

.000 0 

.000 2 

.000 9 

.D02 2 

.004 8 

.008 8 

.014 5 

.022 2 


6 

.000 0 

.000 0 

.000 0 

.000 1 

.000 3 

.000 8 

.001 7 

.003 2 

.005 5 


7 

.000 0 

.000 0 

■ 000 0 

.000 0 

. 000 0 

.000 1 

.000 2 

.000 5 

-001 1 


8 

.000 0 

.000 0 

,000 0 

• 000 0 

.000 0 

,000 0 

.000 0 

.000 1 

.000 2 


9 

• 000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


10 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

■ 000 0 

.000 0 


11 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


12 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 


13 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

15 

14 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

，000 0 

.000 0 

.000 0 


15 

.000 0 

.000 0 

.000 0 

- 000 0 

.000 0. 

.000 0 

.000 0 

.000 0 

.000 0 


16 

• 000 0 

.000 0 

• 000 0 

■ 000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 


17 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 

.000 0 

.000 0 


18 

.000 0 

.000 0 

.000 0 

.000 0 

■ 000 0 

.000 0 

.000 0 

.000 0 

.000 0 


19 

.000 0 

• 000 0 

• 000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 


20 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 


附录 B 表格973 


(续表) 


P 


n 

X 

.10 

.15 

.20 

.25 

.30 

.35 

.40 

.45 

.50 

2 

0 

. 8100 

.722 5 

. 640 0 

.562 5 

.490 0 

.422 5 

.360 0 

.302 5 

.250 0 


1 

. 180 0 

.255 0 

.320 0 

.375 0 

.420 0 

.455 0 

.480 0 

.495 0 

,500 0 


2 

.0100 

.022 5 

.040 0 

.062 5 

.090 0 

. 122 5 

. 160 0 

.202 5 

.250 0 

3 

0 

.729 0 

.614 1 

.5120 

.421 9 

• 343 0 

.274 6 

.2160 

.166 4 

.125 0 


1 

.243 0 

.325 1 

.384 0 

.421 9 

.441 0 

.443 6 

.432 0 

.408 4 

. 375 0 


2 

.027 0 

.057 4 

.096 0 

. 140 6 

. 189 0 

.238 9 

.288 0 

• 334 1 

.375 0 


3 

.001 0 

.003 4 

.008 0 

.015 6 

.027 0 

.042 9 

.064 0 

.091 1 

.125 0 

4 

0 

.656 1 

.522 0 

.409 6 

. 3164 

.240 1 

. 178 5 

. 129 6 

.091 5 

.062 5 


1 

.291 6 

.368 5 

.409 6 

.421 9 

.411 6 

. 384 5 

.345 6 

.299 5 

.250 0 


2 

.048 6 

.097 5 

. 153 6 

.210 9 

.264 6 

• 3105 

• 345 6 

, 367 5 

.375 0 


3 

.003 6 

.011 5 

.025 6 

.046 9 

.075 6 

.Ill 5 

. 153 6 

. 200 5 

.250 0 


4 

.000 1 

.000 5 

• 001 6 

.003 9 

.008 1 

.015 0 

.025 6 

.041 0 

.062 5 

5 

0 

. 590 5 

.443 7 

.327 7 

.237 3 

. 168 1 

. 1160 

.077 8 

.050 3 

.031 2 


1 

. 328 0 

.3915 

.409 6 

. 395 5 

.360 2 

.3124 

.259 2 

.205 9 

.156 2 


2 

.072 9 

. 138 2 

.204 8 

.263 7 

.308 7 

.336 4 

.345 6 

.336 9 

. 312 5 


3 

.008 1 

.024 4 

.051 2 

.087 9 

. 132 3 

. 181 1 

.230 4 

.275 7 

.312 5 


4 

.000 4 

.002 2 

.006 4 

.014 6 

.028 4 

.048 8 

.076 8 

.112 8 

.156 2 


5 

.000 0 

. 000 1 

.000 3 

.001 0 

.002 4 

.005 3 

.0102 

.018 5 

.031 2 

6 

0 

. 531 4 

■ 377 1 

.262 1 

. 178 0 

. 117 6 

.075 4 

.046 7 

.027 7 

‘015 6 


1 

.354 3 

.399 3 

. 393 2 

• 356 0 

.302 5 

.243 7 

. 186 6 

.135 9 

.093 8 


2 

.098 4 

. 176 2 

. 245 8 

. 296 6 

.324 1 

.328 0 

.311 0 

.278 0 

. 234 4 


3 

.014 6 

.041 5 

.081 9 

. 131 8 

. 185 2 

.235 5 

.276 5 

.303 2 

. 312 5 


4 

.001 2 

. 005 5 

.015 4 

.033 0 

■ 059 5 

• 095 1 

. 138 2 

.186 1 

.234 4 


5 

.000 1 

.000 4 

.001 5 

• 004 4 

.010 2 

.020 5 

.036 9 

.060 9 

.093 8 


6 

.000 0 

.000 0 

. 000 1 

.000 2 

.000 7 

.001 8 

• 004 1 

.008 3 

.015 6 

7 

0 

• 478 3 

. 320 6 

.209 7 

. 133 5 

.082 4 

.049 0 

, 028 0 

.015 2 

. 007 8 


1 

. 372 0 

. 396 0 

• 367 0 

. 311 5 

. 247 1 

. 184 8 

.130 6 

.087 2 

.054 7 


2 

. 124 0 

.209 7 

.275 3 

• 311 5 

.317 7 

.298 5 

.261 3 

.214 0 

.164 1 


3 

.023 0 

.061 7 

.114 7 

. 173 0 

.226 9 

.267 9 

.290 3 

,291 8 

.273 4 


4 

. 002 6 

.010 9 

.028 7 

. 057 7 

.097 2 

. 144 2 

.193 5 

.238 8 

.273 4 


5 

.000 2 

.001 2 

.004 3 

• 011 5 

.025 0 

.046 6 

.077 4 

.117 2 

.164 1 


6 

.000 0 

.000 1 

.000 4 

.001 3 

.003 6 

.008 4 

.017 2 

.032 0 

■ 054 7 


7 

. 000 0 

.000 0 

.000 0 

. 000 1 

.000 2 

• 000 6 

.001 6 

.003 7 

. 007 8 

8 

0 

.430 5 

.272 5 

. 167 8 

• 100 1 

.057 6 

.0319 

.016 8 

.008 4 

.003 9 


1 

. 382 6 

. 384 7 

. 335 5 

.267 0 

. 197 7 

. 137 3 

.089 6 

• 054 8 

.031 2 


2 

. 148 8 

.237 6 

.293 6 

• 311 5 

. 296 5 

.258 7 

.209 0 

.156 9 

.109 4 


3 

• 033 1 

• 083 9 

. 146 8 

.207 6 

.254 1 

.278 6 

.278 7 

.256 8 

.218 8 


4 

.004 6 

.018 5 

.045 9 

.086 5 

. 136 1 

• 187 5 

.232 2 

.262 7 

.273 4 


5 

.000 4 

.002 6 

.009 2 

.023 1 

.046 7 

.080 8 

.123 9 

.171 9 

.218 8 


6 

.000 0 

.000 2 

.001 1 

• 003 8 

.010 0 

. 021 7 

.041 3 

.070 3 

.109 4 


7 

.000 0 

.000 0 

. 000 1 

• 000 4 

.001 2 

.003 3 

.007 9 

• 016 4 

.031 2 


8 

■ 000 0 

.000 0 

.000 0 

■ 000 0 

.000 1 

.000 2 

• 000 7 

.001 7 

.003 9 
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( 续表 ) 


_ P _ 

n x .10 _ .15 ,20 .25 .30 _ ,35 _ .JQ _ >45 .50 

9 0~ . 387 4 . 231 6 . 134 2 .075 1 .040 4 「020 7 . 010 1 .004 6 . 002 0 

1 .387 4 .367 9 .302 0 .225 3 . 155 6 . 100 4 .060 5 .033 9 ,017 6 

2 .1722 .2597 .302 0 .3003 ,266 8 .216 2 . 161 2 . 1110 .070 3 

3 .044 6 . 106 9 . 176 2 .233 6 .266 8 .271 6 .250 8 .2119 . 164 1 

4 . 007 4 . 028 3 . 066 1 . 116 8 .171 5 . 219 4 . 250 8 . 260 0 . 246 1 

5 . 000 8 . 005 0 . 016 5 . 038 9 . 073 5 .118 1 . 167 2 . 212 8 . 246 1 

6 . 000 1 .000 6 . 002 8 . 008 7 . 021 0 . 042 4 . 074 3 . 1160 . 164 1 

7 .000 0 .000 0 .000 3 .001 2 .003 9 .009 8 .021 2 .040 7 .070 3 

8 .000 0 .000 0 .000 0 .000 1 .000 4 .001 3 .003 5 .008 3 .017 6 


9 .000 0 .000 0 .000 0 .000 0 .000 0 .000 1 .000 3 .0008 .002 0 


10 0 .348 7 .196 9 . 107 4 .056 3 

1 .387 4 .347 4 .268 4 .187 7 

2 . 193 7 .275 9 .302 0 .281 6 

3 .057 4 . 129 8 .201 3 .250 3 

4 .011 2 .040 1 .088 1 . 1460 

5 .001 5 .008 5 .026 4 .058 4 

6 .000 1 .001 2 .005 5 .0162 

7 .000 0 .000 1 . ⑻0 8 .003 1 

8 .000 0 .000 0 .000 1 .000 4 

9 .000 0 .(K)0 0 .000 0 .000 0 

10 .000 0 .000 0 .000 0 .000 0 

12 0 .282 4 .142 2 .068 7 .031 7 

1 .376 6 .301 2 .206 2 . 126 7 

2 .230 1 .292 4 . 283 5 .232 3 

3 .085 3 . 172 0 . 236 2 .258 1 

4 .021 3 .068 3 . 132 9 . 193 6 

5 .003 8 .019 3 . 053 2 . 103 2 

6 .000 5 .004 0 .015 5 .040 1 

7 .0000 .000 6 .0033 .0115 

8 .000 0 .000 1 .000 5 .002 4 

9 .000 0 .000 0 .000 1 ,000 4 

10 .000 0 .000 0 .000 0 .000 0 

11 .000 0 .000 0 .000 0 .000 0 

12 . 000 0 . 000 0 . 000 0 . 000 0 

15 0 .205 9 .087 4 .035 2 .013 4 

1 .343 2 .231 2 .131 9 .066 8 

2 .266 9 .285 6 .2309 ,155 9 

3 . 128 5 .218 4 .250 1 . 225 2 

4 .042 8 .115 6 . 187 6 .225 2 

5 .010 5 .044 9 . 103 2 . 165 1 

6 .001 9 .013 2 .043 0 .091 7 

7 .000 3 .003 0 .013 8 . 039 3 

8 .000 0 .000 5 .003 5 ,013 1 

9 .000 0 .000 1 .000 7 .003 4 

10 . 000 0 . 000 0 . 0001 .000 7 

11 .000 0 .000 0 .000 0 .000 1 

12 .000 0 .000 0 .000 0 .000 0 

13 .000 0 .000 0 .000 0 .000 0 

14 .000 0 .000 0 .000 0 .000 0 

15 . 000 0 . 000 0 . 000 0 . 000 0 


.028 2 

.013 5 

.006 0 

.002 5 

.0010 

. 121 1 

.072 5 

.040 3 

• 0207 

.0098 

.233 5 

. 175 7 

. 120 9 

.076 3 

.043 9 

.266 8 

.252 2 

.215 0 

. 166 5 

. 117 2 

• 200 1 

• 237 7 

,250 8 

• 238 4 

.205 1 

. 102 9 

. 153 6 

.200 7 

.234 0 

.2461 

.036 8 

.068 9 

.Ill 5 

,159 6 

.205 1 

.009 0 

• 021 2 

.042 5 

.074 6 

. 1172 

• 001 4 

.004 3 

• 010 6 

.022 9 

.043 9 

.000 1 

.000 5 

.001 6 

.004 2 

.009 8 

.000 0 

.000 0 

.000 1 

.000 3 

.001 0 

• 013 8 

.005 7 

.002 2 

.000 8 

.000 2 

.071 2 

.036 8 

.017 4 

.007 5 

.002 9 

. 167 8 

. 108 8 

.063 9 

.033 9 

.016 1 

• 239 7 

. 195 4 

. 141 9 

.092 3 

.053 7 

• 231 1 

.236 7 

.2128 

. 170 0 

. 120 8 

■ 158 5 

• 203 9 

.227 0 

.222 5 

. 193 4 

• 079 2 

• 128 1 

. 176 6 

.212 4 

,225 6 

.029 1 

.059 1 

. 100 9 

. 148 9 

. 193 4 

.007 8 

• 019 9 

.042 0 

.076 2 

• 120 8 

.001 5 

.004 8 

.012 5 

.027 7 

.053 7 

.000 2 

.000 8 

.002 5 

.006 8 

.016 1 

.000 0 

.0001 

.000 3 

.001 0 

.002 9 

• 000 0 

.000 0 

.000 0 

.000 1 

.000 2 

.004 7 

.0016 

.000 5 

.000 1 

.000 0 

• 030 5 

.012 6 

.004 7 

.001 6 

.000 5 

.091 6 

.047 6 

.0219 

.009 0 

.003 2 

. 170 0 

• 1110 

.063 4 

.031 8 

.013 9 

.218 6 

. 179 2 

,126 8 

.078 0 

.0417 

.206 1 

• 212 3 

. 185 9 

. 140 4 

.0916 

. 147 2 

. 190 6 

.206 6 

. 191 4 

. 152 7 

.081 1 

. 131 9 

• 177 1 

.201 3 

. 196 4 

.034 8 

.071 0 

• 118 1 

. 164 7 

. 1964 

.001 6 

.029 8 

.0612 

. 104 8 

. 152 7 

.003 0 

.009 6 

.024 5 

.051 5 

.0916 

.000 6 

.002 4 

,007 4 

.019 1 

.0417 

.000 1 

.000 4 

,0016 

.005 2 

• 013 9 

.000 0 

.000 1 

.000 3 

.001 0 

.003 2 

.000 0 

.000 0 

.000 0 

.000 1 

.0005 

.000 0 

.000 0 

.000 0 

.000 0 

.0000 
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(续表） 


P 


n 

X 

.10 

.15 

.20 

.25 

.30 

.35 

.40 

.45 

.50 

18 

0 

，1501 

.053 6 

.018 0 

.005 6 

.001 6 

.000 4 

.0001 

.000 0 

.000 0 


1 

.300 2 

. 170 4 

.081 1 

,033 8 

• 012 6 

.004 2 

.001 2 

.000 3 

,000 1 


2 

.283 5 

.255 6 

. 172 3 

.095 8 

.045 8 

• 019 0 

.006 9 

.002 2 

.000 6 


3 

. 168 0 

.240 6 

. 229 7 

. 170 4 

. 104 6 

.054 7 

.024 6 

.009 5 

.003 1 


4 

.070 0 

. 159 2 

.215 3 

.213 0 

• 168 1 

. 1104 

.0614 

.029 1 

.0117 


5 

.021 8 

.078 7 

. 150 7 

. 198 8 

.201 7 

. 166 4 

. 1146 

. 066 6 

.032 7 


6 

.005 2 

.030 1 

.081 6 

. 143 6 

. 187 3 

. 194 1 

. 165 5 

• 118 1 

.070 8 


7 

.0010 

.009 1 

.035 0 

.082 0 

. 137 6 

. 179 2 

. 189 2 

. 165 7 

. 121 4 


8 

. 000 2 

.002 2 

.012 0 

.037 6 

.081 1 

. 132 7 

. 173 4 

. 186 4 

. 166 9 


9 

.000 0 

.000 4 

.003 3 

.013 9 

.038 6 

.079 4 

. 128 4 

. 169 4 

. 185 5 


10 

.000 0 

.000 1 

.000 8 

.004 2 

.014 9 

.038 5 

.077 1 

. 124 8 

. 166 9 


11 

.000 0 

.000 0 

.000 1 

.001 0 

.004 6 

• 015 1 

• 037 4 

.074 2 

. 1214 


12 

.000 0 

.000 0 

.⑻0 0 

.000 2 

.001 2 

.004 7 

.014 5 

.035 4 

.070 8 


13 

.000 0 

.000 0 

■⑻0 0 

.000 0 

.000 2 

.001 2 

.004 5 

.013 4 

.032 7 


14 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 2 

.001 1 

.003 9 

.011 7 


15 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 2 

.000 9 

.003 1 


16 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 6 


17 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 1 


18 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

20 

0 

. 121 6 

.038 8 

.011 5 

.003 2 

.000 8 

.000 2 

■ 000 0 

.000 0 

.000 0 


1 

.270 2 

. 136 8 

.057 6 

.021 1 

.006 8 

.002 0 

.000 5 

.000 1 

.000 0 


2 

.285 2 

.229 3 

. 136 9 

• 066 9 

.027 8 

• 010 0 

.003 1 

.000 8 

.000 2 


3 

. 190 1 

.242 8 

.205 4 

. 133 9 

.071 6 

.032 3 

.012 3 

.004 0 

.001 1 


4 

.089 8 

• 182 1 

.218 2 

. 189 7 

. 130 4 

.073 8 

.035 0 

• 013 9 

.004 6 


5 

.0319 

. 102 8 

. 174 6 

.202 3 

. 178 9 

. 127 2 

.074 6 

.036 5 

.014 8 


6 

.008 9 

.045 4 

. 109 1 

. 168 6 

• 191 6 

• 171 2 

. 124 4 

. 074 6 

.037 0 


7 

• 002 0 

.016 0 

.054 5 

. 112 4 

. 164 3 

. 184 4 

. 165 9 

,122 1 

.073 9 


8 

.000 4 

.004 6 

.022 2 

.060 9 

. 114 4 

. 161 4 

. 179 7 

. 162 3 

. 1201 


9 

.000 1 

• 001 1 

.007 4 

.027 1 

.065 4 

. 115 8 

. 159 7 

,177 1 

. 160 2 


10 

.000 0 

• 000 2 

.002 0 

.009 9 

.030 8 

.068 6 

. 117 1 

. 159 3 

. 176 2 


11 

.000 0 

.000 0 

.000 5 

.003 0 

.012 0 

.033 6 

.0710 

. 1185 

. 160 2 


12 

.000 0 

• 000 0 

.0001 

.000 8 

.003 9 

• 013 6 

.035 5 

.072 7 

. 120 1 


13 

. 000 0 

.000 0 

.000 0 

.000 2 

.0010 

.004 5 

• 014 6 

.036 6 

.073 9 


14 

.000 0 

.000 0 

.000 0 

.000 0 

.000 2 

.001 2 

.004 9 

.015 0 

• 037 0 


15 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 3 

.001 3 

.004 9 

,014 8 


16 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 0 

.000 3 

.001 3 

.004 6 


17 

.⑻0 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 2 

.001 1 


18 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 2 


19 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

. 000 0 

.000 0 


20 

.000 0 

.000 0 

.000 0 

.000 0 « 

， .000 0 

.000 0 

• 000 0 

.000 0 

.000 0 
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表格 6 好 4 值 



e_ M 


e— ^ 


ei 

.00 

1.000 0 

■ 




.05 

• 951 2 

2.05 

. 128 7 

4,05 

• 017 4 

.10 

.904 8 

2. 10 

. 122 5 

4. 10 

.016 6 

,15 

• 860 7 

2. 15 

. 116 5 

4. 15 

• 015 8 

.20 

• 8187 

2,20 

. 110 8 

4.20 

.015 0 

.25 

.778 8 

2. 25 

.105 4 

4. 25 

.014 3 

.30 

.740 8 

2. 30 

. 100 3 

4. 30 

• 0136 

.35 

.704 7 

2. 35 

.095 4 

4. 35 

.0129 

.40 

. 670 3 

2.40 

• 090 7 

4.40 

.0123 

.45 

.637 6 

2.45 

• 086 3 

4.45 

.011 7 

.50 

.606 5 

2. 50 

.082 1 

4. 50 

.011 1 

.55 

.576 9 

2.55 

.078 1 

4.55 

• 010 6 

.60 

.548 8 

2.60 

.074 3 

4.60 

.010 1 

.65 

.522 0 

2. 65 

.070 7 

4. 65 

.009 6 

.70 

.496 6 

2.70 

• 067 2 

4. 70 

.009 1 

.75 

.472 4 

2. 75 

.063 9 

4.75 

.008 7 

.80 

.449 3 

2. 80 

• 060 8 

4. 80 

.008 2 

.85 

.427 4 

2. 85 

.057 8 

4. 85 

• 007 8 

.90 

.406 6 

2.90 

.055 0 

4.90 

.007 4 

.95 

.386 7 

2. 95 

• 052 3 

4. 95 

.007 1 

1.00 

• 367 9 

3. 00 

.049 8 

5.00 

• 006 7 

1.05 

• 349 9 

3,05 

.047 4 

6.00 

.002 5 

1. 10 

• 332 9 

3. 10 

.045 0 

7. 00 

.000 9 

1. 15 

.3166 

3. 15 

.042 9 

8.00 

. 000 335 

1.20 

• 301 2 

3.20 

.040 8 

9.00 

. 000 123 





10.00 

. 000 045 

1.25 

• 286 5 

3.25 

• 038 8 



1.30 

• 272 5 

3.30 

.036 9 



1.35 

.259 2 

3.35 

.0351 



1.40 

. 246 6 

3.40 

.033 4 



1.45 

.234 6 . 

3.45 

.031 7 



1.50 

. 223 1 

3.50 

.030 2 



1.55 

.212 2 

3.55 

.028 7 



1.60 

.201 9 

3.60 

.027 3 



1.65 

. 192 0 

3.65 

.026 0 



1.70 

. 182 7 

3.70 

.024 7 



1.75 

. 173 8 

3.75 

.023 5 



1.80 

. 165 3 

3. 80 

.022 4 



1.85 

. 157 2 

3. 85 

.021 3 



1.90 

. 149 6 

3.90 

,020 2 



1.95 

. 142 3 

3.95 

.019 3 



2.00 

. 135 3 

4. 00 

.018 3 
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表格 7 泊松概率 

表中数字给出具有均值为 / x 的泊松分布中发生 x 次的概率。例如，当 # = 2.5 时，发生4次的 
概率是 0. 133 6。 




X 

0.1 

0.2 

0.3 

0.4 

0.5 

0.6 

0.7 

0.8 

0.9 

1.0 

0 

.904 8 

.818 7 

.740 8 

.670 3 

.606 5 

.548 8 

• 496 6 

• 449 3 

.406 6 

• 367 9 

1 

.090 5 

. 163 7 

.222 2 

.268 1 

• 303 3 

.329 3 

.347 6 

• 359 5 

.365 9 

• 367 9 

2 

.004 5 

.016 4 

.033 3 

• 053 6 

.075 8 

• 098 8 

. 121 7 

. 143 8 

. 164 7 

,183 9 

3 

.000 2 

.001 1 

.003 3 

• 007 2 

.012 6 

.019 8 

.028 4 

.038 3 

.049 4 

.061 3 

4 

.000 0 

.000 1 

.000 2 

.000 7 

.001 6 

.003 0 

.005 0 

.007 7 

.011 1 

.015 3 

5 

.000 0 

.000 0 

• 000 0 

.000 1 

.000 2 

• 000 4 

.000 7 

.001 2 

.002 0 

.003 1 

6 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 2 

.000 3 

.000 5 

7 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 0 

• 000 0 

• 000 0 

.000 0 

.000 1 












X 

1.1 

1.2 

1.3 

1.4 

L 5 

1.6 

1.7 

1.8 

1.9 

2.0 

0 

• 332 9 

.301 2 

.272 5 

.246 6 

.223 1 

.2019 

• 182 7 

.165 3 

. 149 6 

. 135 3 

1 

.366 2 

• 361 4 

.354 3 

.345 2 

. 334 7 

.323 0 

.310 6 

.297 5 

.284 2 

.270 7 

2 

.201 4 

.216 9 

.230 3 

.2417 

.251 0 

.258 4 

.264 0 

. 267 8 

.270 0 

. 270 7 

3 

.073 8 

.086 7 

.099 8 

. 1128 

. 125 5 

. 137 8 

. 149 6 

. 160 7 

• 171 0 

. 180 4 

4 

.020 3 

.026 0 

.032 4 

.039 5 

.047 1 

.055 1 

• 063 6 

.072 3 

.081 2 

.090 2 

5 

.004 5 

.006 2 

.008 4 

.011 1 

.014 1 

■ 017 6 

.021 6 

.026 0 

.030 9 

.036 1 

6 

■ 000 8 

.001 2 

.001 8 

.002 6 

.003 5 

• 004 7 

.006 1 

• 007 8 

.009 8 

.012 0 

7 

.000 1 

.000 2 

.000 3 

.000 5 

• 000 8 

• 001 1 

• 0015 

.002 0 

.002 7 

.003 4 

8 

• 000 0 

.000 0 

■ 000 1 

• 000 1 

,000 1 

• 000 2 

,000 3 

.000 5 

.000 6 

.000 9 

9 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 1 

.000 1 

.000 2 












X 

2.1 

2.2 

2.3 

2.4 

2.5 

2.6 

2.7 

2.8 

2.9 

3.0 

0 

. 122 5 

. 1108 

. 100 3 

■ 090 7 

• 082 1 

.074 3 

.067 2 

• 060 8 

.055 0 

,049 8 

1 

.257 2 

.243 8 

.230 6 

.217 7 

.205 2 

. 193 1 

. 181 5 

. 170 3 

. 159 6 

. 149 4 

2 

.270 0 

.268 1 

.265 2 

.261 3 

• 256 5 

.251 0 

,245 0 

.238 4 

,2314 

.224 0 

3 

. 189 0 

. 196 6 

.203 3 

.209 0 

.213 8 

• 2176 

.220 5 

.222 5 

.223 7 

.224 0 

4 

.099 2 

. 108 2 

. 1169 

,125 4 

. 133 6 

,1414 

. 148 8 

. 155 7 

. 162 2 

. 168 0 

5 

• 041 7 

.047 6 

.053 8 

.060 2 

.066 8 

.073 5 

.080 4 

.087 2 

.094 0 

. 100 8 

6 

.014 6 

,017 4 

.020 6 

.024 1 

.027 8 

.031 9 

■ 036 2 

. 040 7 

.045 5 

• 050 4 

7 

.004 4 

.005 5 

• 006 8 

.008 3 

.009 9 

.011 8 

.013 9 

.016 3 

• 018 8 

.021 6 

8 

.001 1 

.001 5 

.0019 

.002 5 

■ 003 1 

■ 003 8 

.004 7 

,005 7 

..006 8 

.008 1 

9 

.000 3 

.000 4 

.000 5 

.000 7 

.000 9 

• 001 1 

• 001 4 

.001 8 

.002 2 

.002 7 

10 

.000 1 

.000 1 

.000 1 

.000 2 

.000 2 

• 000 3 

.000 4 

• 000 5 

. 000 6 

.000 8 

11 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

• 000 1 

.000 1 

.000 1 

.000 2 

.000 2 

12 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

屬 0 0 

.000 0 

.000 0 

.000 0 

.000 1 
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X 3. 1 

3.2 

3.3 

3.4 

3.5 

3.6 

3.7 

3.8 

3.9 

4.0 

0 . 045 0 

.040 8 

.036 9 

.034 4 

.030 2 

.027 3 

.024 7 

.022 4 

.020 2 

• 018 3 

1 . 139 7 

. 130 4 

. 121 7 

. 113 5 

. 105 7 

.098 4 

.091 5 

.085 0 

.078 9 

.073 3 

2 .216 5 

.208 7 

. 200 8 

. 192 9 

. 185 0 

. 177 1 

. 169 2 

. 161 5 

. 153 9 

. 146 5 

3 .223 7 

.222 6 

.220 9 

.218 6 

.215 8 

.212 5 

.208 7 

.204 6 

.200 1 

,195 4 

4 . 173 4 

. 178 1 

. 182 3 

. 185 8 

. 188 8 

• 191 2 

■ 193 1 

. 194 4 

• 195 1 

. 195 4 

5 . 107 5 

. 1140 

. 120 3 

• 126 4 

. 132 2 

. 137 7 

. 142 9 

. 147 7 

. 152 2 

. 156 3 

6 .055 5 

.060 8 

. 066 2 

.071 6 

,077 1 

.082 6 

.088 1 

• 093 6 

.098 9 

. 104 2 

7 .024 6 

.027 8 

.031 2 

.034 8 

.038 5 

.042 5 

.046 6 

‘ 050 8 

.055 1 

.059 5 

8 .009 5 

.011 1 

.012 9 

• 014 8 

• 0169 

.019 1 

.021 5 

.024 1 

.026 9 

.029 8 

9 .003 3 

• 004 0 

• 004 7 

.005 6 

.006 6 

.007 6 

.008 9 

.010 2 

• 011 6 

.013 2 

10 .001 0 

• 001 3 

.001 6 

.001 9 

.002 3 

.002 8 

.003 3 

.003 9 

.004 5 

.005 3 

11 .000 3 

.000 4 

. 000 5 

.000 6 

.000 7 

.000 9 

.001 1 

.001 3 

.001 6 

.001 9 

12 .000 1 

. 000 1 

.000 1 

.000 2 

.000 2 

.000 3 

.000 3 

.000 4 

.000 5 

. 000 6 

13 .000 0 

• 000 0 

.000 0 

.000 0 

.000 1 

.000 1 

.000 1 

,000 1 

.000 2 

.000 2 

14 .000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 


JC 4.1 

4.2 

4.3 

4.4 

4.5 

4.6 

4.7 

4.8 

4.9 

5.0 

0 .016 6 

.015 0 

.013 6 

.012 3 

• 011 1 

.0101 

.009 1 

.008 2 

.007 4 

.006 7 

1 .067 9 

• 063 0 

.058 3 

.054 0 

.050 0 

.046 2 

.042 7 

.039 5 

.036 5 

.033 7 

2 . 139 3 

. 132 3 

,125 4 

. 1188 

. 1125 

. 106 3 

-100 5 

.094 8 

.089 4 

.084 2 

3 . 190 4 

. 185 2 

• 179 8 

. 174 3 

. 168 7 

. 163 1 

. 157 4 

• 151 7 

. 146 0 

. 1404 

4 .195 1 

. 194 4 

. 193 3 

■ 191 7 

. 189 8 

. 187 5 

. 184 9 

. 182 0 

. 178 9 

. 175 5 

5 .160 0 

. 163 3 

. 166 2 

. 168 7 

. 170 8 

. 1725 

. 173 8 

. 174 7 

• 175 3 

. 175 5 

6 . 109 3 

. 114 3 

• 119 1 

. 123 7 

. 128 1 

. 132 3 

. 136 2 

. 139 8 

,143 2 

. 164 2 

7 .064 0 

.068 6 

.073 2 

.077 8 

.082 4 

.086 9 

.091 4 

.095 9 

. 100 2 

. 104 4 

8 .032 8 

,036 0 

.039 3 

.. 042 8 

.046 3 

.050 0 

.053 7 

.057 5 

,0614 

.065 3 

9 .015 0 

• 016 8 

.018 8 

.020 9 

.023 2 

.025 5 

.028 0 

• 030 7 

.033 4 

.036 3 

10 .006 1 

.007 1 

.008 1 

.009 2 

.010 4 

• 011 8 

.013 2 

• 014 7 

.016 4 

.018 1 

11 .002 3 

.002 7 

.003 2 

.003 7 

.004 3 

.004 9 

.005 6 

.006 4 

.007 3 

.008 2 

12 .000 8 

.000 9 

.001 1 

.001 4 

.001 6 

.0019 

.002 2 

.002 6 

.003 0 

.003 4 

13 .000 2 

.000 3 

.000 4 

.000 5 

.000 6 

• 000 7 

.000 8 

.000 9 

• 001 1 

.0013 

14 .000 1 

. 000 1 

.000 1 

.000 1 

.000 2 

.000 2 

.000 3 

.000 3 

.000 4 

.000 5 

15 .000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 1 

.000 1 

.000 1 

.0001 

.000 2 


^ 5.1 

5.2 

5.3 

5.4 

5.5 

5.6 

5.7 

5.8 

5.9 

6.0 

0 .006 1 

.005 5 

.005 0 

.004 5 

.004 1 

.003 7 

.003 3 

.003 0 

.002 7 

.002 5 

1 .0311 

.028 7 

.026 5 

.024 4 

.022 5 

.020 7 

.019 1 

.017 6 

.0162 

.014 9 

2 .079 3 

.074 6 

.070 1 

.065 9 

.061 8 

.058 0 

.054 4 

.050 9 

,047 7 

.044 6 

3 . 134 8 

. 129 3 

. 123 9 

. 1185 

. 113 3 

. 108 2 

• 103 3 

.098 5 

.093 8 

.0892 

4 .1719 

. 168 1 

• 164 1 

. 160 0 

. 155 8 

. 151 5 

. 147 2 

. 142 8 

. 138 3 

. 133 9 
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^ 5.1 

5.2 

5.3 

5.4 

5.5 

5.6 

5.7 

5.8 

5.9 

6.0 

5 . 175 3 

. 174 8 

. 174 0 

. 172 8 

. 1714 

. 169 7 

. 167 8 

,165 6 

. 163 2 

. 160 6 

6 .149 0 

. 151 5 

. 153 7 

. 155 5 

• 157 1 

,158 7 

. 159 4 

. 160 1 

. 160 5 

. 160 6 

7 . 108 6 

. 112 5 

• 1163 

. 120 0 

. 123 4 

. 126 7 

. 129 8 

. 132 6 

• 135 3 

.137 7 

8 .069 2 

.073 1 

.077 1 

• 081 0 

.084 9 

• 088 7 

.092 5 

• 096 2 

.099 8 

• 103 3 

9 .039 2 

.042 3 

.045 4 

.048 6 

.051 9 

.055 2 

.058 6 

.062 0 

.065 4 

.068 8 

10 .020 0 

.022 0 

.024 1 

.026 2 

.028 5 

.030 9 

.033 4 

.035 9 

.038 6 

.041 3 

11 .009 3 

.010 4 

• 011 6 

.012 9 

• 014 3 

.015 7 

• 017 3 

.019 0 

.020 7 

.022 5 

12 .003 9 

.004 5 

.005 1 

.005 8 

.006 5 

.007 3 

.008 2 

.009 2 

• 010 2 

.011 3 

13 ,001 5 

.001 8 

.002 1 

• 002 4 

.002 8 

.003 2 

.003 6 

.004 1 

.004 6 

.005 2 

14 .000 6 

.000 7 

.000 8 

.000 9 

• 001 1 

.001 3 

.001 5 

.0017 

.001 9 

.002 2 

15 .000 2 

.000 2 

.000 3 

. 000 3 

.000 4 

.000 5 

.000 6 

.000 7 

.000 8 

.000 9 

16 . 000 1 

.000 1 

.0001 

.000 1 

.000 1 

.000 2 

.000 2 

.000 2 

.000 3 

.000 3 

17 .000 0 

.000 0 

• 000 0 

.000 0 

• 000 0 

■ 000 1 

.000 1 

.000 1 

.000 1 

.000 1 


x 6. 1 

6.2 

6.3 

6,4 

6.5 

6.6 

6.7 

6.8 

6.9 

7.0 

0 .002 2 

.002 0 

.001 8 

.001 7 

.001 5 

• 001 4 

.0012 

.001 1 

.001 0 

.000 9 

1 .013 7 

.012 6 

.011 6 

.010 6 

.009 8 

.009 0 

• 008 2 

• 007 6 

• 007 0 

.006 4 

2 .0417 

• 039 0 

.036 4 

‘034 0 

.031 8 

.029 6 

.027 6 

.025 8 

.024 0 

.022 3 

3 .084 8 

.080 6 

.076 5 

.072 6 

• 068 8 

.065 2 

■ 061 7 

.058 4 

.055 2 

.052 1 

4 . 129 4 

. 124 9 

. 120 5 

. 116 2 

. 111 8 

. 107 6 

. 103 4 

.099 2 

.095 2 

• 091 2 

5 . 157 9 

. 154 9 

. 151 9 

. 148 7 

. 145 4 

. 142 0 

. 138 5 

. 134 9 

. 1314 

. 127 7 

6 .160 5 

• 160 1 

. 159 5 

. 158 6 

. 157 5 

. 156 2 

. 154 6 

• 152 9 

. 151 1 

. 149 0 

7 , 139 9 

■ 141 8 

. 143 5 

. 145 0 

. 146 2 

. 147 2 

. 148 0 

. 148 6 

. 148 9 

• 149 0 

8 .106 6 

. 109 9 

. 1130 

. 1160 

. 1188 

,121 5 

. 124 0 

. 126 3 

. 128 4 

. 130 4 

9 .072 3 

.075 7 

.079 1 

,082 5 

.085 8 

.089 1 

.092 3 

.095 4 

.098 5 

. 101 4 

10 . 044 1 

.046 9 

.049 8 

.052 8 

.055 8 

.058 8 

,061 8 

.064 9 

.067 9 

‘071 0 

11 .024 5 

.026 5 

• 028 5 

,030 7 

.033 0 

.035 3 

• 037 7 

.040 1 

,042 6 

.045 2 

12 .012 4 

.013 7 

.015 0 

• 016 4 

.017 9 

,019 4 

.0210 

.022 7 

.024 5 

• 026 4 

13 .005 8 

.006 5 

■ 007 3 

.008 1 

.008 9 

.009 8 

• 010 8 

.011 9 

• 013 0 

• 014 2 

14 .002 5 

.002 9 

.003 3 

• 003 7 

.004 1 

.004 6 

.005 2 

• 005 8 

.006 4 

.007 1 

15 .0010 

.001 2 

• 001 4 

.001 6 

.001 8 

.002 0 

.002 3 

.002 6 

• 002 9 

.003 3 

16 .000 4 

.000 5 

.000 5 

.000 6 

.000 7 

.000 8 

.0010 

.001 1 

.001 3 

.001 4 

17 . 000 1 

.000 2 

.000 2 

.000 2 

.000 3 

.000 3 

.000 4 

.000 4 

• 000 5 

.000 6 

18 .000 0 

.000 1 

.000 1 

• 000 1 

.000 1 

.000 1 

.000 1 

.000 2 

.000 2 

• 000 2 

19 .000 0 

.000 0 

.000 0 

‘000 0 

.000 0 

.000 0 

,000 0 

.000 1 

.000 1 

.000 1 


^ 7.1 

7.2 

7.3 

7.4 

7.5 

7.6 

7.7 

7.8 

7.9 

8.0 

0 .000 8 

.000 7 

.000 7 

.000 6 

.000 6 

.000 5 

,000 5 

.000 4 

.000 4 

.000 3 

1 .005 9 

.005 4 

.004 9 

.004 5 

.004 1 

.003 8 

.003 5 

.003 2 

.002 9 

.002 7 

2 .020 8 

.0194 

• 018 0 

.016 7 

• 015 6 

• 014 5 

.013 4 

.012 5 

• 011 6 

.010 7 

3 .049 2 

.046 4 

.043 8 

.041 3 

.038 9 

■ 036 6 

.034 5 

■ 032 4 

.030 5 

.028 6 
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B9I 

f 

■m 


mnm 


f 

mam 

Hm 

4 .087 4 

.083 6 

.079 9 

.076 4 

.072 9 

.069 6 

. 066 3 

.063 2 

.060 2 

.057 3 

5 . 124 1 

. 120 4 

.116 7 

• 113 0 

.109 4 

.105 7 

.102 1 

.098 6 

.095 1 

.091 6 

6 . 146 8 

. 144 5 

.142 0 

.139 4 

.136 7 

.133 9 

• 131 1 

.128 2 

.125 2 

• 122 1 

7 . 148 9 

. 148 6 

.148 1 

.147 4 

.146 5 

.145 4 

.144 2 

.142 8 

.141 3 

.139 6 

8 . 132 1 

. 133 7 

■ 135 1 

,136 3 

.137 3 

.138 2 

.138 8 

.139 2 

.139 5 

.139 6 

9 . 104 2 

. 107 0 

.109 6 

.112 1 

.1144 

.116 7 

,1187 

.120 7 

.122 4 

.124 1 

10 .074 0 

,077 0 

• 080 0 

• 082 9 

.085 8 

.088 7 

.091 4 

.094 1 

.096 7 

.099 3 

11 .047 8 

.050 4 

.053 1 

• 055 8 

.058 5 

.061 3 

.064 0 

.066 7 

.069 5 

.072 2 

12 .028 3 

.030 3 

.032 3 

.034 4 

.036 6 

.038 8 

.041 1 

.043 4 

.045 7 

. 048 1 

13 .015 4 

.016 8 

.018 1 

.019 6 

.021 1 

.022 7 

.024 3 

.026 0 

.027 8 

.029 6 

14 .007 8 

.008 6 

.009 5 

• 010 4 

.011 3 

.0123 

.013 4 

.014 5 

.015 7 

.016 9 

15 .003 7 

.004 1 

.004 6 

.005 1 

,005 7 

.006 2 

.006 9 

.007 5 

.008 3 

.009 0 

16 .0016 

.001 9 

.002 1 

.002 4 

.002 6 

.003 0 

.003 3 

.003 7 

.004 1 

.004 5 

17 ,000 7 

.000 8 

、 . 000 9 

.001 0 

.0012 

.0013 

.001 5 

.001 7 

,001 9 

.002 1 

18 .000 3 

.000 3 

.000 4 

.000 4 

.000 5 

• 000 6 

.000 6 

.000 7 

.000 8 

.000 9 

19 .000 1 

• 000 1 

.000 1 

.000 2 

.000 2 

.000 2 

.000 3 

.000 3 

.000 3 

.000 4 

20 .000 0 

• 000 0 

.000 1 

.000 1 

.000 1 

.0001 

.000 1 

.000 1 

.000 1 

.000 2 

21 .000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 1 

_ ... A 4, — — 

x 8.1 

8.2 

8.3 

8.4 

8.5 

8.6 

8.7 

8.8 

8.9 

9.0 

0 .000 3 

.000 3 

.000 2 

.000 2 

.000 2 

.000 2 

.000 2 

.000 2 

,000 1 

.000 1 

1 .002 5 

.002 3 

.002 1 

.001 9 

.0017 

.001 6 

.001 4 

.001 3 

.001 2 

.001 1 

2 ,010 0 

.009 2 

.008 6 

.007 9 

.007 4 

.006 8 

.006 3 

■ 005 8 

.005 4 

.005 0 

3 .026 9 

.025 2 

.023 7 

.022 2 

.020 8 

• 019 5 

.0183 

.017 1 

■ 016 0 

.015 0 

4 .054 4 

. 051 7 

.049 1 

.046 6 

.044 3 

.042 0 

.039 8 

• 037 7 

.035 7 

.033 7 

5 .088 2 

.084 9 

.081 6 

• 078 4 

.075 2 

.072 2 

.069 2 

.066 3 

.063 5 

.060 7 

6 . 119 1 

. 1160 

.1128 

.109 7 

.106 6 

.103 4 

.100 3 

• 097 2 

.094 1 

.091 1 

7 .137 8 

• 135 8 

.133 8 

.1317 

.129 4 

■ 127 1 

.124 7 

.122 2 

.1197 

• 117 1 

8 . 139 5 

. 139 2 

.138 8 

.138 2 

.137 5 

.136 6 

.135 6 

.134 4 

.133 2 

• 131 8 

9 . 125 6 

. 126 9 

.128 0 

.129 0 

.129 9 

.130 6 

.131 1 

■ 131 5 

.131 7 

.131 8 

10 . 1017 

. 104 0 

.106 3 

.108 4 

.1104 

.1123 

.1140 

.115 7 

.117 2 

.1186 

11 .074 9 

.077 6 

.080 2 

.082 8 

.085 3 

.087 8 

.090 2 

.092 5 

.094 8 

♦ 097 0 

12 . 050 5 

.053 0 

.055 5 

.057 9 

.060 4 

.062 9 

.065 4 

.067 9 

.070 3 

.072 8 

13 .0315 

.033 4 

.035 4 

.037 4 

.039 5 

.041 6 

.043 8 

.045 9 

.048 1 

.050 4 

14 .018 2 

• 019 6 

.021 0 

.022 5 

.024 0 

.025 6 

.027 2 

.028 9 

.030 6 

.032 4 

15 .009 8 

• 010 7 

• Oil 6 

.012 6 

.013 6 

• 014 7 

.015 8 

• 016 9 

.018 2 

.109 4 

16 .005 0 

. 005 5 

,006 0 

.006 6 

.007 2 

.007 9 

.008 6 

.009 3 

,010 1 

.010 9 

17 .002 4 

.002 6 

.002 9 

.003 3 

.003 6 

.004 0 

.004 4 

.004 8 

.005 3 

.005 8 

18 . 001 1 

.001 2 

.001 4 

• 001 5 

,0017 

.001 9 

.002 1 

.002 4 

.002 6 

.002 9 

19 .000 5 

.000 5 

.000 6 

.000 7 

.000 8 

.000 9 

.001 0 

.001 1 

.0012 

.0014 
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Ml 


X 

8.1 

8.2 

8.3 

8.4 

8.5 

8.6 

8.7 

8.8 

8.9 

9.0 

20 

.000 2 

.000 2 

.000 2 

• 000 3 

.000 3 

.000 4 

• 000 4 

.000 5 

.000 5 

.000 6 

21 

.000 1 

• 0001 

.000 1 

.000 1 

.0001 

.000 2 

. 000 2 

.000 2 

.000 2 

.000 3 

22 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 1 

.000 1 

• 000 1 

• 000 1 

.0001 












JC 

9.1 

9.2 

9.3 

9.4 

9.5 

9.6 

9.7 

9.8 

9.9 

10 

0 

.000 1 

.000 1 

.000 1 

.000 1 

.0001 

.0001 

.000 1 

,000 1 

.000 1 

.000 0 

1 

.001 0 

.000 9 

.000 9 

.000 8 

.000 7 

,000 7 

.000 6 

.000 5 

.000 5 

.000 5 

2 

.004 6 

.004 3 

.004 0 

.003 7 

.003 4 

.003 1 

.002 9 

.002 7 

.002 5 

.002 3 

3 

.014 0 

.013 1 

.012 3 

• 0115 

.010 7 

.0100 

.009 3 

• 008 7 

.008 1 

• 007 6 

4 

.031 9 

.030 2 

.028 5 

.026 9 

.025 4 

.024 0 

,022 6 

.021 3 

.020 1 

.018 9 

5 

.058 1 

• 055 5 

.053 0 

.050 6 

.048 3 

.046 0 

.043 9 

.041 8 

.039 8 

.037 8 

6 

.088 1 

.085 1 

.082 2 

.079 3 

.076 4 

.073 6 

.070 9 

.068 2 

• 065 6 

.063 1 

7 

. 114 5 

.Ill 8 

. 109 1 

. 106 4 

. 103 7 

.1010 

.098 2 

.095 5 

.092 8 

.0901 

8 

.130 2 

. 128 6 

. 126 9 

. 125 1 

. 123 2 

.121 2 

.119 1 

.117 0 

.1148 

.1126 

9 

. 131 7 

,131 5 

. 131 1 

. 130 6 

,130 0 

.129 3 

,128 4 

.127 4 

.126 3 

• 125 1 

10 

.119 8 

_ 121 0 

. 121 9 

. 122 8 

.123 5 

.1241 

.124 5 

.124 9 

.125 0 

• 125 1 

11 

.099 1 

• 101 2 

. 103 1 

. 104 9 

. 106 7 

.108 3 

.109 8 

• 111 2 

.1125 

.113 7 

12 

.075 2 

.077 6 

.079 9 

.082 2 

• 084 4 

.086 6 

.088 8 

.090 8 

. 092 8 

.094 8 

13 

.052 6 

• 054 9 

.057 2 

.059 4 

.0617 

• 064 0 

.066 2 

• 068 5 

.070 7 

.072 9 

14 

.034 2 

.036 1 

• 038 0 

.039 9 

.041 9 

.043 9 

.045 9 

.047 9 

• 050 0 

.052 1 

15 

.020 8 

.022 1 

• 023 5 

.025 0 

.026 5 

.028 1 

.029 7 

.031 3 

.033 0 

.034 7 

16 

■ 011 8 

.012 7 

.013 7 

.014 7 

.015 7 

• 016 8 

.018 0 

.019 2 

.020 4 

.0217 

17 

.006 3 

.006 9 

• 007 5 

.008 1 

• 008 8 

.009 5 

• 010 3 

.011 1 

• Oil 9 

.012 8 

18 

.003 2 

.003 5 

.003 9 

.004 2 

.004 6 

.005 1 

.005 5 

• 006 0 

.006 5 

.007 1 

19 

,001 5 

.001 7 

• 001 9 

.0021 

.002 3 

.002 6 

.002 8 

.003 1 

.003 4 

• 003 7 

20 

.000 7 

.000 8 

.000 9 

.001 0 

-001 1 

.0012 

■ 001 4 

.001 5 

.001 7 

.001 9 

21 

.000 3 

.000 3 

.000 4 

• 000 4 

.000 5 

.000 6 

.000 6 

.000 7 

.000 8 

.000 9 

22 

.000 1 

.000 1 

.000 2 

.000 2 

.000 2 

.000 2 

.000 3 

.000 3 

.000 4 

.000 4 

23 

.000 0 

.000 1 

.000 1 

.000 1 

.0001 

.0001 

.000 1 

. 0001 

.000 2 

.000 2 

24 

• 000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

• 000 1 

.000 1 

.000 1 












X 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

0 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

1 

.000 2 

.000 1 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

2 

. 001 0 . 

.000 4 

.000 2 

■ 000 1 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

3 

.003 7 

.001 8 

,000 8 

.000 4 

.000 2 

.000 1 

.000 0 

.000 0 

.000 0 

.000 0 

4 

.010 2 

.005 3 

.002 7 

.001 3 

.000 6 

• 000 3 

.000 1 

.000 1 

.000 0 

.000 0 

5 

.022 4 

■ 012 7 

• 007 0 

.003 7 

.001 9 

.001 0 

.000 5 

.000 2 

.000 1 

.000 1 

6 

.041 1 

.025 5 

.015 2 

,008 7 

.004 8 

■ 002 6 

.0014 

.000 7 

.000 4 

.000 2 

7 

.064 6 

.043 7 

.028 1 

■ 017 4 

.010 4 

.006 0 

.003 4 

.001 8 

.001 0 

.000 5 
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(续表) 




X 

11 

12 

13 

14 

15 

16 

17 

18 

19 

20 

7 

.064 6 

.043 7 

.028 1 

.017 4 

• 010 4 

• 006 0 

.003 4 

.001 8 

.001 0 

.000 5 

8 

.088 8 

• 065 5 

.045 7 

.030 4 

.019 4 

.012 0 

.007 2 

.004 2 

.002 4 

.001 3 

9 

,108 5 

.087 4 

.066 1 

.047 3 

.032 4 

,021 3 

.013 5 

.008 3 

.005 0 

.002 9 

10 

. 1194 

. 104 8 

• 085 9 

.066 3 

.048 6 

.034 1 

.023 0 

.015 0 

.009 5 

.005 8 

11 

. 119 4 

. 114 4 

. 101 5 

.084 4 

.066 3 

.049 6 

-035 5 

.024 5 

■ 016 4 

• 010 6 

12 

,109 4 

. 114 4 

. 109 9 

.098 4 

.082 9 

• 066 1 

.050 4 

.036 8 

• 025 9 

.017 6 

13 

.092 6 

. 105 6 

. 109 9 

. 106 0 

.095 6 

.0814 

.065 8 

,050 9 

.037 8 

.027 1 

14 

.072 8 

.090 5 

.1021 

• 106 0 

. 102 4 

.093 0 

.080 0 

.065 5 

.051 4 

.038 7 

15 

• 053 4 

.072 4 

.088 5 

.098 9 

. 102 4 

• 099 2 

.090 6 

.078 6 

.065 0 

.051 6 

16 

.036 7 

.054 3 

,071 9 

.086 6 

• 096 0 

.099 2 

.096 3 

.088 4 

.077 2 

.064 6 

17 

,023 7 

.038 3 

.055 0 

,071 3 

.084 7 

.093 4 

.096 3 

.093 6 

.086 3 

.076 0 

18 

.014 5 

• 025 6 

.039 7 

• 055 4 

.070 6 

.083 0 

.090 9 

.093 6 

.091 1 

.084 4 

19 

.008 4 

,016 1 

.027 2 

.040 9 

.055 7 

.069 9 

• 0814 

.088 7 

• 091 1 

.088 8 

20 

• 004 6 

.009 7 

,017 7 

.028 6 

.041 8 

• 055 9 

.069 2 

.079 8 

.086 6 

• 088 8 

21 

.002 4 

.005 5 

.010 9 

.019 1 

.029 9 

.042 6 

.056 0 

.068 4 

.078 3 

.084 6 

22 

• 001 2 

.003 0 

.006 5 

.0121 

.020 4 

.031 0 

.043 3 

.056 0 

.067 6 

.076 9 

23 

• 000 6 

.001 6 

,003 7 

.007 4 

• 013 3 

.021 6 

.032 0 

.043 8 

.055 9 

.066 9 

24 

.000 3 

,000 8 

.002 0 

.004 3 

.008 3 

.014 4 

.022 6 

.032 8 

.044 2 

• 055 7 

25 

• 000 1 

.000 4 

,001 0 

.002 4 

.005 0 

.009 2 

• 015 4 

• 023 7 

.033 6 

.044 6 

26 

.000 0 

.000 2 

.000 5 

.001 3 

.002 9 

.005 7 

.0101 

.016 4 

,024 6 

.034 3 

27 

• 000 0 

.000 1 

.000 2 

.000 7 

.001 6 

.003 4 

.006 3 

.010 9 

.017 3 

.025 4 

28 

.000 0 

• 000 0 

.000 1 

.000 3 

.000 9 

.001 9 

.003 8 

.007 0 

• 0117 

.018 1 

29 

.000 0 

.000 0 

.000 1 

.000 2 

■ 000 4 

.001 1 

• 002 3 

.004 4 

.007 7 

.012 5 

30 

.000 0 

.000 0 

.000 0 

.000 1 

.000 2 

.000 6 

.001 3 

.002 6 

.004 9 

.008 3 

31 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 3 

• 000 7 

.001 5 

.003 0 

.005 4 

32 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 1 

.000 4 

.000 9 

• 001 8 

.003 4 

33 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

• 000 2 

.000 5 

.001 0 

.002 0 

34 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.0001 

.000 2 

.000 6 

.001 2 

35 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

■ 000 1 

.000 3 

.000 7 

36 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 1 

.000 2 

.000 4 

37 

.000 0 

.000 0 

.000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 1 

.000 2 

38 

• 000 0 

.000 0 

• 000 0 

• 000 0 

.000 0 

.000 0 

.000 0 

.000 0 

,000 0 

.0001 

39 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.000 0 

.0001 


t 
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表格 8 自相关的 D - W 检验的临界值 

表中数字给出自相关分析中单边 D - W 检验的临界值。对于双边检验，重要性水平应是表中数字 
的两倍。 

a = 0. 05 时焱和 也 的重要程度独立变霣的个数 


k 1 2 3 4 5 


n 

di 

d\j 

d L 

du 


du 

d L 

du 

d L 

du 

15 

1. 08 

1.36 

0. 95 

1.54 

0. 82 

1.75 

0. .69 

1.97 

0.56 

2.21 

16 

1. 10 

1.37 

0. 98 

1.54 

0. 86 

1.73 

0.74 

1.93 

0. 62 

2. 15 

17 

L 13 

1. 38 

1.02 

1. 54 

0. 90 

1.71 

0.78 

1.90 

0. 67 

2. 10 

18 

1. 16 

1. 39 

1.05 

1.53 

0,93 

1.69 

0. 82 

1. 87 

0.71 

2. 06 

19 

1. 18 

1.40 

1.08 

1.53 

0,97 

1.68 

0. 86 

1.85 

0. 75 

2. 02 

20 

1. 20 

1.41 

1. 10 

1. 54 

LOO 

1.68 

0. 90 

1.83 

0. 79 

1.99 

21 

1. 22 

1.42 

1. 13 

1. 54 

1.03 

1.67 

0. 93 

1. 81 

0. 83 

1.96 

22 

1. 24 

1.43 

1. 15 

1. 54 

1.05 

1. 66 

0. 96 

1.80 

0. 86 

1.94 

23 

1.26 

1,44 

1. 17 

1.54 

1.08 

1. 66 

0.99 

1.79 

0.90 

1.92 

24 

1.27 

1.45 

1. 19 

1. 55 

1. 10 

1. 66 

1.01 

1.78 

0. 93 

1.90 

25 

1.29 

1.45 

1.21 

1. 55 

1. 12 

1. 66 

1.04 

1.77 

0.95 

1. 89 

26 

1. 30 

1. 46 

1.22 

1.55 

1. 14 

1.65 

1.06 

1.76 

0.98 

1. 88 

27 

1. 32 

1.47 

1.24 

1.56 

1. 16 

1,65 

1.08 

1.76 

1.01 

1.86 

28 

1. 33 

1.48 

1.26 

1.56 

1. 18 

1,65 

1. 10 

1.75 

1.03 

1. 85 

29 

1. 34 

1.48 

1.27 

1. 56 

1,20 

1.65 

1. 12 

1.74 

1.05 

1,84 

30 

1. 35 

1.49 

1.28 

1. 57 

1.21 

1.65 

1. 14 

1.74 

1.07 

L 83 

31 

1. 36 

1. 50 

1.30 

1.57 

1.23 

1.65 

1, 16 

1.74 

1.09 

L 83 

32 

1. 37 

1. 50 

1.31 

1.57 

1.24 

1.65 

1.18 

1.73 

1. 11 

1. 82 

33 

1. 38 

L 51 

1.32 

1. 58 

1.26 

1.65 

1. 19 

1.73 

1. 13 

1. 81 

34 

1. 39 

1.51 

1.33 

1.58 

1.27 

1.65 

1,21 

1.73 

1. 15 

1.81 

35 

1.40 

1. 52 

1.34 

1.58 

1.28 

1.65 

1.22 

1.73 

1. 16 

1.80 

36 

1.41 

1, 52 

1.35 

1.59 

1.29 

1.65 

1.24 

1.73 

1. 18 

1. 80 

37 

1.42 

1.53 

1.36 

1.59 

1.31 

1.66 

1.25 

1.72 

1. 19 

1.80 

38 

1.43 

1.54 

1.37 

1.59 

1.32 

1.66 

1.26 

1.72 

1.21 

1.79 

39 

1.43 

1.54 

1.38 

1.60 

1.33 

1.66 

1.27 

1.72 

1.22 

1,79 

40 

1.44 

1.54 

1.39 

1,60 

1,34 

1.66 

L 29 

1.72 

1.23 

1.79 

45 

1,48 

1.57 

1,43 

1.62 

1.38 

1.67 

1,34 

1.72 

1.29 

1.78 

50 

1.50 

1.59 

1.46 

1.63 

1.42 

1.67 

1.38 

1.72 

1. 34 

L 77 

55 

1. 53 

1. 60 

1.49 

1.64 

1.45 

1.68 

1.41 

1.72 

1.38 

1.77 

60 

1. 55 

1. 62 

1.51 

1.65 

1.48 

L 69 

1.44 

1.73 

1.41 

1.77 

65 

1. 57 

1. 63 

1,54 

1.66 

1.50 

1.70 

1.47 

1.73 

1.44 

1.77 

70 

1.58 

1.64 

1.55 

1.67 

1.52 

1.70 

1.49 

1.74 

1.46 

1.77 

75 

1.60 

1. 65 

1.57 

1,68 

1.54 

1.71 

1.51 

1.74 

1.49 

1.77 

80 

1.61 

1.66 

1.59 

1.69 

1. 56 

1.72 

1.53 

1.74 

1.51 

1.77 

85 

1.62 

1.67 

1.60 

1.70 

1.57 

1.72 

1.55 

1.75 

1.52 

1.77 

90 

1. 63 

1.68 

1,61 

1. 70 

1.59 

1.73 

1.57 

1.75 

1.54 

1.78 

95 

1. 64 

1.69 

L 62 

1.71 

1. 60 

1.73 

1.58 

1.75 

1.56 

1.78 

100 

1. 65 

L 69 

1.63 

1. 72 

1.61 

1.74 

1.59 

1.76 

1.57 

1.78 
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a = 0 . 025 时和办的重要程度独立变置的个数 


(续表) 


k 1 2 3 4 5 


n di du dL d\j di du di dw d\, dv 

15 0.95 1.23 0.83 1.40 0.71 1.61 0.59 1.84 0.48 2.09 

16 0.98 1.24 0.86 1.40 0.75 1.59 0.64 1.80 0.53 2.03 

17 1.01 1.25 0.90 1.40 0.79 1.58 0,68 1.77 0.57 1.98 

18 1.03 1.26 0.93 1.40 0.82 1,56 0,72 1.74 0.62 L 93 

19 1.06 2.28 0.96 1.41 0.86 1.55 0.76 1.72 0.66 1.90 

20 1.08 1.28 0.99 1.41 0.89 1.55 0.79 1.70 0.70 1.87 

21 1 . 10 1.30 1.01 1.41 0.92 1.54 0.83 1.69 0.73 1.84 

22 1 . 12 1.31 1.04 1.42 0.95 1.54 0.86 1.68 0.77 1.82 

23 1.14 1.32 1.06 1.42 0.97 1.54 0.89 1.67 0.80 1.80 

24 1.16 1.33 1.08 1.43 1.00 1.54 0.91 1.66 0.83 1.79 

25 1 . 18 1.34 1 . 10 1.43 1.02 1.54 0.94 1.65 0.86 1.77 

26 1 . 19 1.35 1 . 12 1.44 1,04 1.54 0.96 L 65 0.88 1.76 

27 1.21 1.36 1.13 1.44 1.06 1.54 0.99 1.64 0.91 1.75 

28 1.22 1.37 1.15 1.45 1.08 1.54 1.01 1.64 0.93 1.74 

29 1.24 1.38 1 . 17 L 45 1 . 10 1.54 L 03 1.63 0.96 1.73 

30 1.25 1.38 1.18 1.46 1.12 1.54 1.05 1.63 0.98 1.73 

31 1.26 1.39 1.20 1.47 L 13 1.55 1.07 1.63 1.00 1.72 

32 1.27 1.40 1.21 1.47 1.15 1.55 1.08 L 63 L 02 1.71 

33 1.28 1.41 1.22 1.48 1 . 16 1.55 1 . 10 1.63 1.04 1.71 

34 1.29 1.41 1,24 1.48 1.17 1,55 1.12 1.63 1.06 1,70 

35 1.30 1.42 1.25 1.48 1.19 1.55 1 . 13 1.63 1.07 1.70 

36 1,31 1.43 1.26 1.49 1.20 1.56 1.15 1.63 1.09 1.70 

37 1.32 1.43 1.27 1.49 1.21 1.56 1 . 16 1.62 L 10 1.70 

38 1.33 1.44 1.28 1.50 1.23 L 56 1.17 1.62 L 12 1.70 

39 1.34 1.44 1.29 1.50 1.24 1.56 1.19 1.63 1,13 1.69 

40 1.35 1.45 1.30 1.51 1.25 1.57 1.20 1.63 1.15 1.69 

45 1.39 1,48 1.34 1.53 1.30 1.58 1.25 1.63 L 21 1.69 

50 1.42 1.50 1.38 1.54 1.34 1.59 1.30 1.64 1.26 1.69 

55 1.45 1.52 1.41 1.56 1.37 1.60 1.33 1.64 1.30 1.69 

60 1.47 1.54 1.44 1.57 1.40 1.61 1.37 1.65 1.33 1.69 

65 1.49 1.55 1.46 1.59 1.43 1.62 1.40 1.66 1.36 1.69 

70 1.51 1.57 1.48 1.60 1.45 1.63 1.42 1.66 1.39 1.70 

75 1.53 1.58 1.50 1.61 1.47 1.64 1.45 1.67 1.42 1.70 

80 1.54 1.59 1.52 1.62 1.49 1.65 1.47 1.67 1.44 1.70 

85 1.56 1.60 1.53 1.63 1.51 1.65 1.49 1.68 1.46 1.71 

90 1.57 1.61 1.55 1.64 1.53 1.66 1.50 1.69 1.48 1.71 

95 1.58 1.62 1.56 1.65 1.54 1.67 1.52 1.69 1.50 1.71 

1.59 1.63 1.57 1.65 1.55 1.67 1.53 1.70 1,51 1.72 


100 
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(续表) 


a: =0. 01 时武和爪的重要程度独立变量的个数 

k 

1 


2 


3 


4 


5 


n 

d L 

dv 

d L 

dv 

d L 

dv 

d L 

dv 

di 

dv 

15 

0 . 81 

1.07 

0,70 

1 . 25 

0.59 

1.46 

0.49 

1,70 

0.39 

1.96 

16 

0 . 84 

1.09 

0 . 74 

1.25 

0.63 

1.44 

0.53 

1.66 

0.44 

1.90 

17 

0.87 

1 . 10 

0.77 

1 . 25 

0.67 

1.43 

0.57 

1.63 

0.48 

1 . 85 

18 

0 . 90 

1 . 12 

0 . 80 

1.26 

0.71 

1.42 

0.61 

1.60 

0 . 52 

1.80 

19 

0.93 

1 . 13 

0 . 83 

1.26 

0 . 74 

1.41 

0.65 

1.58 

0.56 

1.77 

20 

0.95 

L 15 

0 . 86 

1.27 

0.77 

1.41 

0 , 68 

1.57 

0 . 60 

1.74 

21 

0 . 97 

1 . 16 

0 . 89 

1.27 

0 . 80 

1.41 

0 . 72 

L 55 

0.63 

1.71 

22 

1.00 

1 . 17 

0.91 

1.28 

0 . 83 

1.40 

0 . 75 

1.54 

0.66 

1.69 

23 

1.02 

1 . 19 

0 . 94 

1.29 

0 . 86 

1.40 

0 . 77 

1.53 

0.70 

1.67 

24 

1.04 

1.20 

0.96 

1.30 

0 . 88 

1.41 

0 . 80 

1..53 

0 . 72 

1.66 

25 

1 . 05 ^ 

1.21 

0 . 98 

1.30 

0 . 90 

1.41 

0,83 

1.52 

0 . 75 

1.65 

26 

1.07 

1.22 

1.00 

1.31 

0 . 93 

1.41 

0 . 85 

1.52 

0 . 78 

1.64 

27 

L 09 

1.23 

1.02 

1.32 

0 . 95 

1.41 

0 . 88 

1,51 

0.81 

L 63 

28 

1 . 10 

1,24 

1.04 

1 . 32 

0.97 

L 41 

0.90 

1.51 

0.83 

1.62 

29 

1 . 12 

1,25 

1.05 

1 . 33 

0 . 99 

1.42 

0 . 92 

1.51 

0.85 

1.61 

30 

1 . 13 

1.26 

1.07 

1.34 

1.01 

1.42 

0.94 

1.51 

0 . 88 

1.61 

31 

1 . 15 

1.27 

1.08 

1.34 

1.02 

1.42 

0.96 

1.51 

0.90 

1.60 

32 

1 . 16 

L 28 

1 . 10 

1.35 

1.04 

1,43 

0 . 98 

1.51 

0 . 92 

1.60 

33 

1 . 17 

1.29 

1 . 11 

1.36 

1.05 

1.43 

1.00 

1.51 

0.94 

1.59 

34 

1 . 18 

L 30 

1 . 13 

1.36 

1.07 

1.43 

1.01 

1.51 

0 . 95 

1.59 

35 

1 . 19 

L 31 

1 . 14 

1.37 

1.08 

1.44 

1.03 

1,51 

0.97 

1.59 

36 

1.21 

1.32 

L 15 

1.38 
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该表经牛津大学出版社许可重印，基于 Biometrika Trustees ， 见 J. Durbin 和 G. S. Watson, “最小方差回归分析 II 中的序列相关 
检验 ” ， Biom^riita38(1951)， 159 - 178 。 


986 商务与经济统计 

表格 9 MANN - WHITNEY-WILCOXON 检验的 71 值 

如果项目&的秩之和比下列表中的 7 Y 值小，或者项目^的秩之和比 R 值大，则拒绝识别总体的假 
设。 式中， = n-i ( n-i + ri 2 + 1 ) - Tlo 

a =0,01 
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总体数目 

学生分布的临界值 
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附录 B 表格989 


表格 11 X 因子和及控制图 


样本观测值 

di 

Ai 


/>3 

Da 
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1 . 128 

1,880 

0.853 
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3.267 

3 

1.693 

1.023 

0.888 

0 

2 . 574 

4 

2 . 059 

0 . 729 

0 . 880 

0 

2 . 282 

5 

2 . 326 

0 . 577 

0 . 864 

0 

2 . 114 

6 

2.534 

0 . 483 

0 . 848 

0 

2.004 

7 

2 . 704 

0.419 

0 . 833 

0 . 076 

1.924 

8 

2 . 847 

0 . 373 

0 . 820 

0 . 136 

1.864 

9 

2 , 970 

0.337 

0 . 808 

0 . 184 

1.816 

10 

3 . 078 

0 . 308 

0 . 797 

0 . 223 

1.777 

11 

3 . 173 

0 . 285 

0.787 

0 . 256 

1.744 

12 

3.258 

0 . 266 

0 . 778 

0 . 283 

1.717 

13 

3 . 336 

0 . 249 

0 . 770 

0 . 307 

1,693 

14 

3.407 

0 , 235 

0 . 763 

0 . 328 

1.672 

15 

3.472 

0 . 223 

0 . 756 

0.347 

1.653 

16 

3.532 

0.212 

0-750 

0 . 363 

1.637 

17 

3 . 588 

0 . 203 

0 . 744 

0 . 378 

1.622 

18 

3.640 

0 . 194 

0 . 739 

0.391 

1.608 

19 

3.689 

0 . 187 

0.734 

0 . 403 

. 1 . 597 

20 

3.735 

0 . 180 

0,729 

0.415 

1.585 

21 

3 . 778 

0 . 173 

0 . 724 

0 . 425 

1.575 

22 

3.819 

0 . 167 

0 . 720 

0 . 434 

1.566 

23 

3 . 858 

0 . 162 

0.716 

0 . 443 

1.557 

24 

3.895 

0 . 157 

0.712 

0 . 451 

1.548 

25 

3.931 

0 . 153 

0 . 708 

0 . 459 

1.541 


节选自《关于数据和控制图使用的 ASTM 手册 》 （ASTM Manual on Presentation of Data and Control Chart Analysis )( 美国检验和 
材料学会， 1976 年版）中的 ASTMSTP 15D 的表 27, 经许可重印。 
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附录 C 求和符号 


求和 


定义 

例子：如果 a = 5,怎2 = 8,无3 = 14: 

结果1 

对一个常数 c: 

例子：如果 c = 5, n = 10： 

例子： 如果 c=^： 

结果2 


n 

^ Xj = X\ + X2 + 9mt + X, 



X\ X2^- Xz 

i= 1 

= 5 + 8 + 14 
= 27 


y 1 , C = ( C + C + * 4 * + c) = TIC 

i= l V v ' 

/l 倍 

10 

X5 = 10(5) =50 

i= 1 


x = nx 


CXi = CX\ + CC2 + … + CXn 


例子：如果 a = 5， a ；2 = 8, 約 = 14 ， c = 2: 


=c( A；1 + A：2 + *•• + = C 


i - 



^2 Xi =2 X ^=2(27) =54 

i = 1 i = 1 

结果 3 

n n n 

^ (axi+ byi) = a ^,Xi + b 

i=l i=l i = 1 

例子：如果无 i = 5， = 8 ， = 14， a = 2, j\ = 7, 72 = 3, y 3 = 8 , 6=4: 


( C .1) 


( C .2) 


( C .3) 


( C .4) 
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3 3 3 

X (2xi + 4ji) =2 X + 4 X h 

i = 1 i = 1 i = 1 

= 2(27) +4(18) 

= 54+72 
= 126 


双求和 


考虑如下的包含变量&的数据，式中；是标明行位置的下标， y 是标明列位置的下标。 

. 列 


定义 


例子： 


定义 


例子 


行 


2 


xn = 10 
X2l=l 


2 

X\2 = 8 

X22 =4 


3 

X 13 ~ 6 
^C23 = 12 


行 m 

Xij = (x\l + X \2 + ••• + Xlm) + (xil + X 22 + m " + X 2 m) 

1 ; = 1 

+ ( %31 + 欠 32 + ••• + %3m) + •■■ + ( + •_• + Xnm) 

2 3 

/ j ^ Xij = ^Cli + X\2 + ^13 + X2\ + X22 + X23 
i= 1 j= 1 

= 10 + 8 + 6 + 7+4 + 12 
= 47 


n 

I 


Xij = + X2j + … 


^ ^ i 2 


= X\2 + X22 


缩写符号 


=12 


有时是对所有的下标求和时，我们使用下列缩写符号： 

n _ 

= 欠 i 

i = 1 

it 


Xij 


Z〜=X 


Xij 


( C .5) 


( C .6) 


( C .7) 

( C .8) 


( C .9) 
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附录 D 偶数习题的答案 


第1章 

2. a . 9 

b . 4 

c. 定 性型： 国家和房间等级 

定 量型： 房间的数量和总分 

d . 国家是名义 尺度： 房间等级是序数尺 
度； 房间数量和总分是比例尺度。 

4. a . 10 

b . 《财富》美国500 强公司 

c. 14 227. 59百万美元 

d . 14 227. 59百万美元 

6. 问题 a 、 c 和 d 是定量型的 
问题 b 和 e 是定性型的 
8. a . 2 013 

b . 定性型 

c. 百分比 

d . 563或564 
10. a . 定量型;比例 

b . 定 性型； 名义 

c. 定 性型； 序数 
丄定 性型； 名义 

e. 定 性型； 比例 

12. a . 所有到夏威夷的游客 

b . 是 

c. 问题1和4提供定量型数据 
问题2和3提供定性型数据 

14. a . 4 

b . 全部是定量型的 

c. 时间序列 


16. a . 产品口味检验和市场分析 
b . 专项设计的统计研究 
18. a . 40% 

b . 定性型的 

20. a . 56% 和387 325美元 

b . 3. 73 

c . 387 325美元 

22. a . 所有参加活动的成人观众 
b . 电话询问的观众 


C. 样本 



24. a . 正确 



b . 不正确 



C. 正确 



d . 不正确 



e . 不正确 



第 2 章 



2. a . 0.20 



b . 40 



c/d - 组别 

频数 

百分比频数 

A 

44 

22 

B 

36 

18 

C 

80 

40 

D 

40 

20 

总计 

200 

100 

4. a . 定性型 



b . 电视节目 

频数 

百分比频数 

Millionaire 

24 

48 

Frasier 

15 

30 

Chicago Hope 

7 

14 

Charmed 

_4 

_8 

总计 

50 

100 
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d . Millionaire 占有最大的市场份额 ； Frasier 12. 





组别 

累积频数 累积相对频数 

k 居第 — 。 










矣 19 

10 


0. 20 

& a _ 图书 

频数 

百分比频数 

^29 

24 


0. 48 

7 Habits 

10 

16.66 

矣 39 

41 


0. 82 

Millionaire 

16 

26.67 

矣 49 

48 


0.96 

Motley 

9 

15.00 


50 


1. 00 




矣 59 




Dad 

13 

21.67 





WSJ Guide 

6 

10.00 

14. b/c. 




Other 

_6 

10.00 

组别 

频数 

百分比频数 

总计 

60 

100, 00 

6.0 —7.9 

4 


20 

b. 前 5 名： 

Dad 、 Motley^ 

8.0 —9.9 

2 


10 

7Habits、WSJ Guide 


10.0—11.9 

8 


40 




12.0 — 13.9 

3 


15 

c . 48. 33% 










14.0 — 15.9 

_3 


15 

8. a . 







位置 

频数 

百分比频数 

总计 

20 


100 

P 

17 

0. 309 

16. a . 




H 

4 

0, 073 





1 

5 

0.091 

股价(美元） 频数 

相对频数 

百分比频数 

2 

4 

0. 073 

10.00—19.99 

10 

0.40 

40 

3 

2 

0. 036 

20. 00 — 29. 99 

4 

0. 16 

16 

S 

5 

0.091 

30. 00 — 39. 99 

6 

0.24 

24 

L 

6 

0. 109 

40. 00 — 49. 99 

2 

0.08 

8 

. C 

5 

0. 091 

50. 00 — 59. 99 

1 

0.04 

4 

R 

J_ 

0. 127 

60. 00 — 69. 99 

_2 

0.08 

_8 

总计 

55 

1.000 

总计 

25 

1.00 

100 

b . Pitcher 



b. 




c. 经三场棒球 







d. 右场 



每股收益（美元） 

频数 

相对频数 

百分比频数 

— ■ — • ▼ 

e . 内场成员16比外场成员18 


- 3. 00 — - 2. 01 

2 

0. 08 

8 




- 2. 00 — - 1. 01 

0 

0.00 

0 

10. a . 按定性划分 










-1.00—-0. 01 

2 

0. 08 

8 

b. 










0. 00—0. 99 

9 

0. 36 

36 

档次 

频数 

百分比频数 








1.00—1.99 

9 

0. 36 

36 

差 

2 

0. 03 








2. 00— 2. 99 


0. 12 

12 

一般 

4 

0. 07 








总计 

25 

1.00 

100 

好 

12 

0, 20 





非常好 

24 

0.40 








18. a . 最低 年薪： 

93 000美元 


优异 

18 • 

0. 30 





总计 

60 

1.00 

最高年薪: 

178 000美元 
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b . 


28. a . 0 


年薪(千美元）频数 相对频数百分比频数 


91—105 

4 

0.08 

8 

106 一 120 

5 

0. 10 

10 

121—135 

11 

0.22 

22 

136—150 

18 

0. 36 

36 

151—165 

9 

0. 18 

18 

166 一180 

J 

0.06 

_6 

总计 

50 

1.00 

100 


c . 20/50 

d . 24% 
20. a . 48. 9 % 

b . 43. 4 % 


22 . 


2 

2 

3 

3 

4 

4 

5 

5 

6 


5 8 

1 1 

5 6 

2 3 

6 8 


3 

7 

3 


3 

8 

3 


4 
9 

5 


4 
9 

5 


6 

0 

7 


7 7 9 


0 


b . 


c . 51. 

1% 







2000 P/E 预测 

频数 


相对频数 

d .9 707. 5 万 






5 — 

-9 

2 


6.7 

e . 4 661. 25 万 






10 — 

-14 

6 


20.0 

5 

7 

8 






15- 

-19 

6 


20.0 

6 

4 

5 

8 





20- 

-24 

6 


20.0 

7 

0 

2 

2 

5 

5 

6 

8 

25- 

-29 

2 


6. 

7 

8 

0 

2 

3 

5 




30 — 

-34 

0 


0.0 

叶单位 

=10 






35 — 

-39 

4 


13.3 

11 

6 







40 — 

-44 

1 


3. 

3 









45 - 

-49 

2 


6. 

7 

12 

0 

2 




















50 — 

-54 

0 


0.0 

13 

0 

6 

7 



















55 — 

-59 

0 


0.0 

14 

2 

2 

7 



















• 60 — 

~ 64 

J 


3^ 

3 

15 

5 





















总计 

30 


100.0 

16 

0 

2 

8 





30. b . 负相关 





17 

0 

2 

3 





32. a . 






叶单位 

= 0. 1 




















• 销售额/ 


每股收益评分 



0 

4 

7 

8 

9 

9 



边际收益/ 0 — 20 — 40 — 

60 — 

80 — 


1 

1 

2 

9 





权益收益 

19 39 59 

79 

100 

总计 

2 

0 

0 

1 

3 

5 

5 

6 

8 A 



1 

8 

9 

3 

4 

9 






B 

1 

4 

5 

2 

12 

4 

8 







C 

1 

1 

2 

3 

7 

5 








D 

3 1 


1 


5 

6 








E 

2 

' 1 



3 

7 

1 







总计 

4 4 

6 

9 

13 

36 
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b. 

销售额 / 

每股收益评分 


42. 

收入(美元） 

频数 

相对频数 

边际收益 / o — 

20 — 40 — 

60 — 

80 — 


18 000—21 999 

13 

0. 255 

权益收益 19 

39 59 

79 

100 

总计 

22 000—25 999 

20 

0.392 

A 



11. 11 

88. 89 

100 

26 000—29 999 

12 

0. 235 

B 


8.33 33 * 33 

41.67 

16. 67 

100 

30 000—33 999 

4 

0. 078 

C 

14. 29 

14.29 

28. 57 42. 86 

100 

34 000—37 999 

J, 

0. 039 

D 

60. 00 20. 00 

20. 00 


100 

总计 

51 

1.000 

E 


66. 67 33 - 33 



100 





较高的 EPS 比例似乎是与较高的销售/边 
际收益/投资收益回报率相一致 


44. a . 高温 
3 


34. 

无明显相关 



4 






36. a . 

车辆 

频数 

百分比频数 

5 

7 






F-Series 

17 

34 

6 

1 

4 

4 

4 

4 


Silverado 

12 

24 

7 

3 

5 

7 

9 



Taurus 

8 

16 

8 

0 

1 

1 

4 

6 


Camry 

7 

14 

9 

0 

2 

3 




Accord 

_6 

12 

b. 低温 







50 

100 

3 

1 9 






b . 福特 F 系列小货车和 Chevrolet Silverado 

38. a . 


4 


3 6 8 

00 0 2445579 


电影 


频数 


百分比频数 

6 

18 



Blair Witch Project 

159 


36.0 

7 

2 4 5 

5 


Phantom Menace 

89 


20.2 

8 




Beloved 


85 


19.3 

9 




Primary Colors 

57 


12.9 

C. 低温的值域在高温的值域之下 


Truman Show 

51 


11.6 

d .8 个城市 



总计 


441 


100.0 

e* 











频数 


c . 56. 2% 














温度 

高温 

低温 

40. 


相对 

累积 

累积相 





收盘价频数 

频数 

频数 

对频数 

3U— 

0 

1 

0—9% 

9 

0. 225 

9 

0. 225 

40—49 

0 

3 

10—19% 

10 

0. 250 

19 

0. 475 

50—59 

1 

10 

20—29% 

5 

0. 125 

24 

0. 600 










60—69 

7 

2 

30—39% 

11 

0. 275 

35 

0. 875 





40—49% 

2 

0. 050 

37 

0. 925 

70- 

-79 

4 

4 

50—59% 

2 

0. 050 

39 

0_ 975 

80—89 

5 

0 

60 —69% 

0 

0. 000 

39 

0. 975 

90- 

—99 

_3 

_0 

70—79% 

J 

0. 025 

40 

1.000 

总计 

20 

20 

总计 

40 

1.000 
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职业 

30- 

39 

满意度分数 
*40 — 50 — 60 - 

49 59 69 

- 70- 

79 

-80 — 

89 

总计 

木工 



2 

4 

3 

1 

10 

律师 

1 

5 

2 

1 

1 


10 

理疗师 



5 

2 

1 

2 

10 

系统分析师 


2 

1 

4 

3 


10 

总计 

1 

7 

10 

11 

8 

3 

40 

b. 










满意度分数 




! 

30 — 

-40- 

— 50 ~ 

一 60 — 

- 70- 

—80 — 


职业 

39 

49 

59 

69 

79 

89 

总计 

木工 



20 

40 

30 

10 

100 

律师 

10 

50 

20 

10 

10 


100 

理疗师 



50 

20 

10 

20 

100 

系统分析师 


20 

10 

40 

30 


100 


C. 木工似乎具有最高的职业满意 分数； 律 

- 师似乎最低 




48. b. 




年份 

频数 

相对频数 

百分比频数 

1973 以前 

247 

Elect. 

149 

1974—1979 

54 

Nat. Gas 

317 

1980—1986 

82 

Oil 

17 

1987—1991 

121 

Propane 

7 

总计' 

504 

Other 

14 



总计 

504 


b . 行百分比的交叉分组表 

利润(千美元) 


市场价值 

(千美元） 

0 — 

300 

300 — 

600 

600 一 

900 

900 — 

1200 

总 

0—8 000 

85. 19 

14.81 

0. 00 

0. 00. 

100 

8 000—16 000 

33. 33 

33.33 

16. 67 

一 

16.67 

100 

16 000— 24 000 

0. 00 

50. 00 

25.00 

25.00 

100 

24 000—32 000 

0. 00 

25. 00 

50.00 

25.00 

100 

32 000—40 000 

0.00 

66.67 

33.33 

0. 00 

100 


C. 表明在市场价值和利润之间是正 相关； 
当盈利增加时，市场价值也随之升高 
52. b . 市场价值和所有者权益之间的关系是正 
相关 

第3章 

2. 16， 16.5 
4.59.727，57, 53 

6. a . 91. 45, 87.5, 120 

b . 66.3, 69.5, 70 

c . 500@ 50美元 
d •是 

8. a . 38.75, 29 

b . 38. 5 

c . 29.5, 47.5 

d . 31 

10. a . 48. 33,49; 不报告众数 
b .45, 55 


50. a . 市场价值和盈利的交叉分组表 

利润(千美元） 


(千美元） 

0 — 

300 

300 一 

600 

600 _ 

900 

900 — 

1200 

总计 

0 — 8000 

23 

4 



27 

8 000 — 16 000 

4 

4 

2 

2 

12 

16 000 — 24 000 


2 

1 

1 

4 

24 000 — 32 000 


1 

2 

1 

4 

32 000 — 40 000 


2 

1 


3 

总计 

27 

13 

6 

4 

50 


12. 城市: 均值 = 15. 58,中位数 = 15. 9, 
众数 = 15. 3 

乡村： 均值 = 18 t 92， 中位数 = 18. 7, 
众数 = 18. 6和 19.4 
14. a . 639美元 

b . 98. 8图片 

c . 110. 2分钟 
16. 16, 4 

18. a . 22 
b . 75. 2 
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c . 8. 67 

d . 4.87 

20. a . 值域=32,四分位点内距=10 

b . 92. 75, 9. 63 

22. Dawson : 值域= 2, 5 = 0. 67 
Clark : 值域= 8, 5 = 2. 58 
24. a . 161, 92.5; 56, 19.5 

b . 2 705.38; 52. 01; 290.85， 17.05 

c . 56.38, 25. 56 

d . 以 500@50( 美元）时变异程度较大 
26_ 1/4英里： s =0.056， 变异系数 =5. 8 

英里 ： s =0.130，变异系数 =2. 9 
28. a . 95% 

b . 几乎所有 

c . 68% 

30. 0. 20, 1.50, 0, -0. 50, -2.20 
32, a . 34% 

b . 81.5% 

c . 16% 

34. a . - 0. 95 

b . 3.90 

c . ( b ) 部分中的劳动成本是异常值 
36. a . 100; 13. 88或近似为 14 

b . 16% 

c . 11. 1和 10. 77；无异常值 
38. 15, 22.5, 26, 29, 34 

40. 5, 8, 10, 15, 18 

42. a . 5, 9.6, 14.5, 19.2, 52.7 

b . 界限： -4.8, 33.6 

c . 41. 6 是异常值 
52. 7是异常值 

44. a . 105.79, 52.7 

b . 15.7, 78.3 

c . Silicon Graphics , 反斗城玩具公司 （疑有 
误，原文如此——编者注） 

d _ 26. 73;大得多 
46. a . 37.48, 23.67 
b . 7.91, 51.92 


c . 界限： -58. 11, 117.94 
俄罗斯和土耳其是异常值 
48. b . 在％和 y 之间存在线性关系 

c . Sxy ~ 26. 5 

d . r xy = 0. 69 
50. -0.91; 负相关 
52. a . 0. 92 

b . 强正线性相关 
54, a . 3. 69 
b . 3. 175 
56. a . 2. 50 
b . 能 

58. 10.74, 25. 63, 5.06 
60. a . 138.52, 129, 0 

b . 不同，高得多 

c . 95 169 

d . 467 74 

e . 9 271.01，96.29 

f . 有， 467 美元的值 
62. a . 18.57，16.5 

b . 53.49, 7.31 

c . Quantex 

d . 1. 15 

e . 一 0.90 

f . 没有，根据 z 分数值 

64.7 195.5; 7 019; 7 165 941; 2 676. 93 
66. a . 公交工具 ： 32; 私人汽车: 32 

b . 公交 工具： 4.64; 私人 汽车： 1.83 

c . 私人汽车有较小的变异性 
68. a . 400, 624, 836, 999, 1 278 

c . 界限： 61.5, 1 561.5 
无异常值 

70. 51.50, 227.37, 15.08 
72. b . 0. 75 
74. a . 817 
b . 833 

76. 51.5 , 227. 37, 15.08 
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第4章 

2. 20种方法 

4. b . ( H ， H ， H )，（ H ， H ， T )，（ H ， T ， H )，（ H ， T ， T ), 
( T , H , H ), ( T , H , T ), ( T , T , H ), ( T , T , T ) 

c . % 

6. 0.40, 0.26, 0. 34； 相对频数法 
8. a . 4: 规划委员会肯定——议会通过， 

规划委员会肯定——议会不通过， 

规划委员会否定-议会通过， 

规划委员会肯定——议会不通过 
10 . a . 0. 60 

b . 0.09 

c . 0. 78 

d . 86 

e . 15. 3 亿美元 
12. a . 1 906 884 


c . A c = ( E 3 , Es); C c = ( E\, Ea)\ 
P ( A C ) =0. 60； P ( C C ) =0. 40 

d . ( Ei , £*5); 0.60 

e . 0. 80 
24. 0. 43 

26. a . 0. 30, 0. 23 

b . 0. 17 

c . 0. 64 
28. a . 0. 698 

b . 0, 302 
30. a . 0. 67 

b . 0. 80 

c . 不独立 


32. a . 



单身 

已婚 

总计 

30 岁以下 

0. 55 

0. 10 

0. 65 

30 岁以上 

0. 20 

0. 15 

0. 35 

总计 i 

0. 75 

0.25 

1.0 


b . 1/1 906 884 

c , 1/80 089 128 
14, a . / ^4 

b . M 

c. K 
16. a . 36 

c . % 

d. % 

e . 不同尸(奇数值）(偶数值） 

f . 经典方法 

18. a . P (0) =0. 05 

b . P (4 或 5) =0. 20 

c . P (0, 1，或 2) =0.55 

20 . a . 0 • 112 

b . 0. 086 

c . 0.49 

22. a . 0. 40,0. 40, 0. 60 
b . 0. 80,是互斥 


b . 30 岁以下的来夜总会的概率大 

c . 单身来夜总会的概率大 

d . 0.55 

e . 0. 846 2 

f . 不独立 
34. a . 0. 44 

b . 0. 15 

c . 0. 022 5 

d . 0, 002 5 

e . 0. 136 

f . 0. 106 
36. a . 

满意度分数 


职业 

50 50 — 60 — 70 — 80 — 

以下 59 69 79 89 

总计 

木工 

0. 000 0. 050 0. 100 0. 075 0.025 

0.250 

律师 

0. 150 0. 050 0. 025 0. 025 0. 000 

0.250 

理疗师 

0. 000 0. 125 0. 050 0.025 0. 050 

1 

0.250 

系统分析师 

0. 050 0. 025 0. 100 0. 075 0. 000 

0.250 

总计 

0. 200 0. 250 0. 275 0. 200 0. 075 

1.000 
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b . 0.075 


60. a . 0. 062 5 


c . 0. 20 


b . 0.013 2 


d . 0. 25 

e . 0. 15 

f . 0. 60 

g . 0. 275 

38. a . 52/190 = 0. 273 7 

b . 0.012 5 

c . 0. 368 4 

40. a . 0. 10, 0. 20, 0.09 

b . 0.51 

c . 0. 26, 0.51, 0. 23 
42. a . 0.21 

b . 应该收回 
44. 0. 675 4 


c . 3 口井 

第 5 章 

2. a . = 以分钟计加工产品所需时间 

b . 所有 正数； ^>0 

c . 连续的 

4. % = 0, 1，2,…，12 

6. a . 0,1,2,-, 20;离散的 

b . 0， l ，2, …； 离散的 

c . 0,1,2,-*, 50;离散的 

d . O ^ x ^ S ; 连续的 

e . %>0;连续的 


46. 

a . 

0. 68 

8. 

a . 








b . 

52 


X 

1 

2 

3 


4 



c. 

10 


fix ) 

0. 15 

0. 25 

0.40 

0 

.20 


48. 

a . 

0.61 


c. f ( x ) ^0, Yf ( x )= 

：1 





b . 

18 — 34 和 65 + 

10. 

a . 








c. 

0. 30 

• 

X 

1 

2 

3 


4 

5 

50. 

a . 

76 


fix ) 

0. 05 

0.09 

0.03 

0 

• 42 

0.41 


b . 

0. 24 


b ., 

1 

2 

3 


4 

5 

52. 

b . 

0. 202 2 


fix ) 

0.04 

0. 10 

0. 12 

0 

.46 

0. 28 


c . 0. 461 8 

d . 0. 400 5 
54. a . 0. 49 

b . 0. 44 

c . 0. 54 

d . 不独立 

e . 相同 
56. a . 0. 25 

b . 0. 125 

c . 0.012 5 

d . 0. 10 

e . 不独立 
58. 3. 44% 


c . 0. 83 

d . 0. 28 

e . 高级执行经理有更高的满意度 
12. a . 是有效的 

b . 0. 65 
14. a . 0. 05 

b . 0. 70 

c . 0. 40 
16. a . 5 . 20 

b . 4. 56,2. 14 
18. a . E ( x ) =2. 3, 相同 

b . Var ( x ) =1,23 ， cr = 1. 11 
20. a . 166 



1000 商务与经济统计 


b . -94; 关注大事故的赔付额 
22. a . 445 

b . 1 250亏损 
24. a . 中： 145;高：140 
b . 中： 2 725; 高：12 400 
26. a . /(0) =0.348 7 

b . /(2) =0. 193 7 

c . 0. 929 8 

d . 0. 651 3 

e . 1 

f . cr 2 =0.900 0, cr =0.948 7 
28. a . 0. 329 2 

b . 0. 642 2 

c . 0.018 2 


c , 0. 864 7 
44. a . /x = 1. 25 

b . 0. 286 5 

c . 0. 358 1 

d . 0, 355 4 
46. a . 50 

b . 0.067 

c . 0.466 7 

d . 0. 30 
48. a . 0. 50 

b . 0. 333 3 
50. a . (>• 01 

b . 0.07 

c . 0. 92 


30. a . 每一次试验中发现次品的概率必须是 d . 0.07 

0. 03;试验必须是独立的 52. a . 0.533 3 


c . 2 



b . 

0. 666 7 

d . 次品数目 

0 1 

2 

c . 

0. Ill 8 

概率 

0. 940 9 0. 058 2 

0. 000 9 

d . 

Tl-1 


32. a . 0. 90 54. a . /( %)彡0和 Z /( %) = 1 


b . 0. 99 

c . 0. 999 


b . 3. 64,0. 670 4 

c . 股市价值被高估 


d . 建议安装 
34. a . 0. 063 4 

b . 0. 063 4 

c . 0. 972 9 

38. a . /( x ) - ~~ 

b . 0. 224 1 

c . 0. 149 4 

d . 0. 800 8 
40. a . 0. 195 2 

b . 0. 104 8 

c . 0.018 3 

d . 0. 090 7 
42. a . 0. 146 5 

b . 1 


56. a . 0. 036 4 

b . 0. 442 0 

c . 48 

d . 6. 788 2 
58. a . 0. 951 0 

b . 0.048 0 

c . 0. 049 0 
60. a . 328 

b . 13.91 

c . 13.91 
62. 0. 191 2 
64. a . 0. 224 0 

b . 0. 576 7 
66. a . 0. 533 3 
b . 0. 133 3 
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c . 0. 3333 

第6章 

2. b , 0. 50 

c . 0. 60 

d . 15 

e . 8. 33 
4. b . 0. 50 

c . 0. 30 

d . 0. 40 
6. a . 0. 40 

b . 0. 64 

c . 0. 68 
10. a . 0. 341 3 

b . 0. 433 2 

c . 0. 477 2 

d . 0. 493 8 
12. a . 0. 296 7 

b . 0. 441 8 

c . 0. 330 0 

d . 0. 591 0 

e . 0. 884 9 

f . 0. 238 8 
14. a . z = 1. 96 

b . z = 0. 61 

c . z = 1 . 12 

d. z =0,44 
16. a . z = 2. 33 

b . z = 1.96 

c . z = l . 645 

d . z = 1. 28 
18. a . 0. 245 1 

b . 0. 117 0 

c . 69. 48 分钟或更多 
20. a . 0. 025 

b . 5. 16% 


c . 33. 72 或更长时间 
22. a . 0.419 4 

b . 517. 44 美元或更多 

c . 0. 0166 

24. a . 902.75, 114. 185 

b . 0. 184 1 

c . 0, 197 7 

d . 10. 91 亿 
26. a . 0. 527 6 

b . 0. 393 5 

c . 0.472 4 

d . 0. 134 1 
28. a . 0. 3935 

b . 0. 223 1 

c . 0. 383 4 
30. a . 50 小时 

b . 0. 393 5 

c . 0. 135 3 

32. a . /( x ) =30 e ~ 30 * 

b . 0. 082 1 

c . 0.713 5 
34. a . 63 000 美元 

b . 43 800 美元或更少 

c . 12.92% 

d . 87 675 美元 
36. a . 220. 33 美元 

b . 0. 599 9 

c . 1 656. 78 美元 
38. a . 0. 022 8 

b . 50 美元 
40. a . 38. 3 % 

b . 3. 59% 更高， 96. 41% 更低 

d . 38. 21% 

42, jx - 19. 23 益司 
44. a . 4 小时 

b . l / 4 e~ xM 

c . 0. 778 8 
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d .0. 135 3 
46. a . 2分钟 

b . 0. 221 2 

c . 0. 393 5 

d . 0. 082 1 

第 7 章 

o 

2. 22， 147， 229, 289 
4. a . IBM , Microsoft ， Intel , GE , AT&T 

b . 252 

6. 2 782,493,825,1 807,289 
8. Washington , Clemson , Oklahoma , Colorado , 
USC , 和 Wisconsin 

10. 有限，无限，无限，无限，有限 
12. a . 0. 50 

b . 0.366 7 
14. a . 0. 19 

b . 0. 32 

c . 0.79 
16. 0. 80 
18. a . 200 

b . 5 

c . 正态分布具有 £： ⑸ =200 和 = 5 

d . 无的概率分布 

20. 3,54, 2.50, 2. 04, L 77 
当 n 增加时， m 减少 
22. a . 只对 /I = 30和 rt = 40可用 
b . n = 30; E ( x ) = 400和 cr ; = 9. 13 
n =40; 正态分布中， E ( x ) — 400 
和 0*5 = 7. 91 

24. a . 正态分布中芯(元）=51 800和的= 516. 40 

b . 仍递减至 365. 15 

c . 当 ri 增加时，&减少 

26. a . 正态分布中 £：( 幻 =1.20 和内= 0.014 
b . 0. 841 4 

e . 0. 522 4 


28. a . 0. 503 6, 0. 621 2, 0. 788 8, 0. 923 2, 

0. 987 6 

b . 以较高的概率在 ±250 美元内 
30. a . 正态分布其芯(元）=166 500和的= 420 0 

b . 0. 982 6 

c . 0.766 0,0.451 4,0. 189 6 

d . 增加样本容量 
32. a . n//V = 0.01; 否 

b . 1.29, 1.30; 忽略误差 

c . 0. 876 4 
34. a . 0. 615 6 

b ，0. 853 0 
36. a . 0. 615 6 

b . 0.7814 

c . 0. 948 8 

d . 0. 994 2 

e . 对较大的 n 有较高的概率 

38. a . 正态分布中 £*(尹） =0.76 和 a > = 0.021 4 

b . 0. 838 4 

c . 0. 945 2 

40. a . 正态分布中芯⑦） =0.25 和％ = 0.030 6 

b . 0. 673 0 

c . 0. 896 8 

42. a . •正态分布中芯⑦） =0. 15和 o > = 0.050 5 

b . 0. 444 8 

c . 0. 838 9 

44. 112, 145, 73, 324, 293, 875, 318, 618 
46. a . 正态分布中£⑸ =31.5 和的= 1.70 

b , 0. 444 8 

c . 0. 923 2 
48. a . 8.49 

b . 0. 500 0 

c . 0.444 8 

d . 0. 593 4 
50. a . 625 

b . 0. 788 8 

52. a . 正态分布中五❻） =0.74 和％ = 0.031 
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b . 0, 803 0 

c . 0. 477 8 
54. a . 0. 960 6 

b . 0. 049 5 

56. a . 48 

b . 正态分布，五(多 ）=0.25 和％： =0.062 5 

c . 0.2119 

第8章 

2. a . 30. 60—33. 40 

b . 30. 34— 33. 66 

c . 29. 81—34-19 

4. 62 

6. 362. 80—375. 20 
8. a . 11 769—12 231 

b . 11 725—12 275 

c . 11 638—12 362 

d. 宽度增加，更加可信 
10. 7. 25—8. 25 

12. a . 3. 8 

b . 0, 81 

c . 2. 99—4. 61 
14. a . 1 . 734 

b . - 1.321 

c . 3. 365 

d. - 1.761 和 1.761 

e . - 2. 048 和2, 048 
16. a . 15. 97—18.53 

b . 15.71—18. 79 

c . 15. 14 — 19. 36 
18. a . L 58 

b . 0. 147 4 

c , L 49—1.67 
20. a . 21. 15—23. 65 

b ，21. 12—23. 68 
c . 区间基本相同 


22. a . 6. 86 

b . 6. 54 到 7. 18 
24. a . 9 

b . 35 

c . 78 

26. a . 340 

b . 1358 

c . 8 487 
28. a . 53 

b . 75 

c . 129 

d . 必须增大 ？ i 
30. 59 

32. a . 0. 673 3~€. 726 7 
b . 0.668 2—€.731 8 
34. 1068 
36. a . 0. 439 3 

b . 0. 387 0—0. 491 6 
38. a . 0. 043 0 

b . 0. 217 0—0. 303 0 

c . 822 

40. a . 0. 250 5 
b . 0. 026 6 
42. a , 0. 044 2 

b . 601， 1 068, 2 401， 9 604 
44. a . 2 009 

b . 47 991—52 009 
46. a . 49. 8 

b . 15.99 

c . 47. 58—52. 02 
48. a . 13.2 

b . 7.8 

c . 7. 62—18. 78 

d . 区间 增宽； 应该再大些 

50. 37 

52. 176 

54. a . 0.542 0 
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b . 0. 050 8 

c . 0.491 2—0. 592 8 
56. a . 1 267 

b . 1 509 
58. a . 0. 68 

b . 0. 639 1—0. 720 9 
60. a . 0.310 1 

b . 0. 289 8—0. 330 4 

c . 8 219; 不提供，样本容量不够大 


第 9 章 

2. a. 7/ o : 

14 

K: 

/j>\4 

4. sl. Ho' 

: /x 多 220 

H a 

: /x<220 

6. a. Ho 

: / 

H. 

: /JL>\ 


b . 索赔，当^>1不真时 

c . 索赔，当不真时 
8. a . Ho ： fi ^220 

U a : /jl<220 

b . 索赔当 220 不真时 

c . 索赔当 /^220 不真时 
10. a . 拒绝 执如果 z >2.05 

b . 1. 36 

c . 0. 086 9 

d . 不拒绝 ft ) 

12. a . 0.034 4; 拒绝执 
b _ 0.326 4; 不拒绝讯 

c . 0.066 8; 不拒绝 ft 

d . 近似为 0; 拒绝 
14. a . 拒绝如果 z >2.33 

b _ 3. 11 
c . 拒绝 //o 
16. a . Ho ： / Jb ^ 13 


/jl<\3 

b. 拒绝如果 z< -2.33 

c. - 2. 88 

d. 拒绝 //o 

18. a. Ho ： /x 彡 5, 72 
H a : /x > 5. 72 

b. 2. 12 

c. 0. 017 0 

d. 拒绝 7/ 0 

20 . a. Ho ： 000 

H a ： /x > 37 000 

b. 1.47 

c. 0.070 8 

d. 不拒绝乩 

22. a. 拒绝丑。如果 z< - 2. 33或 z >2. 33 

b. 1. 13 
c_ 0. 258 4 
d. 不拒绝 // 0 
24. a. 0. 071 8; 不拒绝风 

b. 0. 652 8; 不拒绝7/。 

c. 0.040 4; 拒绝讯 

d . 近似为 0; 拒绝 i/ 0 

e. 0.317 4; 不拒绝 ft 

26. a . 拒绝风如果 z<-1.96 或如果 z>\.96 

b. -1.71 

c. 不拒绝 //o 
28. a. Ho ： / a = 1 075 

H & ： \ 075 

b. z = 1. 43 

c. 0. 152 8 

d. 不拒绝 //o 
30. a. Ho ： /a = 26 133 

H & ： jjl ^26 133 

b. -2.09 

c. 0. 036 6 

d. 拒绝风 

32. a. 14. 66 或更少 
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b . 拒绝// 0 

34. a . 18 

b . 1.41 

c . 拒绝 // 0 如果名 < - 2_ 571 或 t >2. 571 

d . 一 3. 47 

e . 拒绝 ft 

36. a . 0.01; 拒绝 //o 

b . 0.10; 接受 //。 

c . 在 0. 025和 0. 05之间；拒绝 i / 0 

d . 大于 0. 10;不拒绝 i / 0 

e . 近似0;拒绝// 0 

38. a . 拒绝 //。如果 t < - 2. 064或 t > 2, 064 

b . - 1. 90 

c . 不拒绝// 0 
40. a . Ho - jll = 4 000 

H a - /17*^4 000 

b . 拒绝 //o 如果 f <-2. 160 或如果 

t >2. 160 

c . L 63 

d . 不拒绝 i / 0 

e . 在 0. 10 和 0. 20 之间 
42. a . Ho - 

H a - jjl>2 

b . 拒绝 // G 如果 t >\. 833 

c . 2. 4 

d . 0.516 
e _ 2. 45 

f . 拒绝 ft 

g . 在 0 . 01 和 0 . 025 之间 

44. a . 拒绝 i/o 如果 z < - 1. 96 或 z > L 96 

b . - 1.25 

c . 0.2112 

d . 不拒绝 // 0 
46. a . Ho ： p ^ O , 40 

i / a ： p >0.40 

b . 拒绝 Ho 如果 z > L 645 

c . 1.99 


d . 拒绝 Ho 
48. a . 0. 57 

b . 3. 13 

c . 小于 0. 001 

d . 拒绝 //o 
e •是 

50. a . 0. 638 1 

b . 2.83 

c . 0. 004 6 

d . 拒绝 
52. a . - L 20 

b . 0. 115 1 

c . 不拒绝 i / 0 
54. a . Ho - p ^ O . 047 

H a : p <0. 047 

b . 0. 029 6 

c . - 2. 82 

d . 0.002 4 

e . 拒绝 i/o 
56. a . 0. 291 2 

b . 第二类错误 

c . 0. 003 1 

58. a . 得出当它不真时 

b . 0.267 6 

c . 0.017 9 

60. a . 得出芦= 28,当它不真时 

b . 0. 085 3,0.617 9,0. 617 9, 0. 085 3 

c . 0.914 7 

62. 0. 115 1,0. 001 5 
增加 n 减少 P 
64. 214 
66. 109 
68. 324 

70. a . Ho - / x 彡 45 250 
H a ： fj > 45 250 
k 2.71 
c . 0. 003 4 
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d . 拒绝 "0 

72. z = 2. 26. p - 值 =0.011 9 
拒绝 i/o 
76. a . 0.014 3 

b . 拒绝讯 
78. a . 0. 650 2 

b . -0. 98 

c . 0. 327 0 

d . 不拒绝执 
80. a . 显示 p <0, 50 

b . z = -6.62; 拒绝讯 
82. a . 0. 825 

b . 2. 17 

c . 0. 03 

d . 拒绝 
84. a . 352 

b . -2. 64 

c . 0. 004 1 

d . 拒绝 // 0 
86. 219 

第 io 章 

2. a . 2. 4 

b . 5. 27 

c . 0. 09—4. 71 
4. a . 0. 60 

b . 0. 56 — 0. 64 
6. -0.51—1.27 
8. a . 1200 

b . 438—1 962 

c . 两总体是正态分布且方差相等 
10. a . 2. 18 

b . 4. 41 

c . 0. 71 —— 3. 65 


14. a . Ho - /jli - / jui =0 
H a : /m — 

b . 拒绝如果 z <-1.96 或 z> 1.96 

c . 2. 18 

d . 拒绝 H 。 

e . 0.029 2 

16. z = 4. 49, p -值 *== 0 
拒绝讯 
18. a . 1.08 

b . 0.280 2 

c . 不拒绝 /fo 

20. a . H o ' /Xi —jJUz ^ 0 

H g- (Ji\ — 

b . 拒绝执如果 f >1.711 

c . 2. 07 
d _ 拒绝 

e _ 近似 0.025 
22* a . 3, — 1, 3, 5, 3, 0, 1 

b . 2 

c . 2. 028 2 

d . 2 

e . 0.07—3.93 
24. 0. 16—0. 35 

26. t = 1.63; 不拒绝好 o 
28. a . t = l . 34; 拒绝 // 0 
b . 4. 96—9. 21 
30. a . 0. 12 

b . 0. 058 6—0. 181 4 

c . 0. 046 9—0. 193 1 
32. 0. 000 9—0. 139 1 
34. a . 0.220 6 

b . 0. 178 8—0. 262 4 
36. z = 3. 94; 拒绝执 
38. z = 2. 28； 值 =0.0226 
拒绝讯 


12. a . z = - l . 53; 不拒绝 //o 
b . 0. 126 0 


40. a . 4 354—5 646 
42. a . Ho"' fM — /Jbz ^ 0 
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H a > fi\ ~ 叫 >0 

b . 2=0.59，_不拒绝// 0 

c . 0. 277 6 

44. £ = 2.29;拒绝//0 
46. a . Ho * P 1 — 

H a ' P ] — 0 

b . z = 4.70 ;p -值 

c . 拒绝 m 

48. 0.017 4;拒绝好 0 

第 11 章 

2. a . 15.76—46.95 

b . 14. 46—53. 33 

c . 3. 8 — 7. 3 
4. a . 0. 22—0. 71 

b . 0. 47—0. 84 
6. a . 13.30 

b _ 7. 97—38. 23 
8. a . 0. 008 45 

b . 0.091 9 

c . 0. 004 2—0. 024 4 

d . 0. 065 1—0. 156 1 
10. x 2 = 206. 22； 拒绝 // 0 
12. a . 0. 810 6 

b . x 2 = 9. 49; 不拒绝 i/o 
14. F = 2. 42; 拒绝执 
16. F = 2. 63; 拒绝 ft 
18. F = 3. 54; 不拒绝 
20. f = 5. 29; 拒绝讯 
22. a . 尸=4;拒绝//(> 

b . 在湿路上要谨慎驾驶 
24. 10.72—24. 68 
26. a . \ 2 = 27.44;拒绝// 0 
b . 0. 000 12—0. 000 42 
28. \ 2 = 31.5;拒绝抓 
30. a . 15 


b . 6. 25—11. 13 
32. F = 1. 39; 不拒绝 Ho 
34. F = 2.08; 拒绝 

第 12 章 

2. x 2 = 15. 33, x 2 o.o5=7. 8147 3; 拒绝 ff 0 
4. \ 2 =29.51 ， \ 2 0.05 = 11.07; 拒绝付 0 
数据百分 til 已发生变化 
6. x 2 = 10* 69, x 2 o . io = 9. 24 ；拒绝 Ho 
8. x 2 = 16.31, x 2 o.oi = 11.34； 拒绝 
10. x 2 = 19. 78, x 2 o.o5=9. 49; 拒绝 i/ 0 
12. a . x 2 =7_ 36, x 2 o . os =5. 99; 拒绝队 
b . 国内的为 47. 2% 

14, x 2 = 13. 43, x 2 o . o 5 = 12. 59; 拒绝队 
16. a . x 2 =7.85， x 2 o . o 5 =7. 81; 拒绝 // 0 
b . 参数， 98. 6% 

18. x 2 = 13.42, X 2 o.oi = 13. 28； 拒绝 flo 
20. x 2 = 9. 03, x 2 o.os =7.81; 拒绝 
22. X 2 = 4. 30, x 2 o.o5=5. 99; 不 拒绝乐 
24, x 2 = 2. 8, x 2 o . io = 6. 25; 不拒绝执 
26. x 2 = 8. 04, x 2 o.os =7.81; 拒绝 // 0 
28. )( 2 =31.43，\ 2 0.05=7.81 ; 拒绝付 0 
30. x 2 = 42. 53, x 2 o.o5=9. 49; 拒绝 W 0 
32. x 2 =23.37， x 2 o . o 5 =7. 81; 拒绝汛 
34. a . x 2 = 12. 86, x 2 o.oi f 9. 21; 拒绝 W 0 
b . 66. 7, 30. 3, 2. 9 
54. 0, 42. 0, 4.0 

36. x 2 = 6. 20, xVo 5 = 12. 59; 不拒绝执 
38. x 2 =7. 78, x 2 o . o 5 =7. 81; 不拒绝 //o 

第 13 章 

2. a . MSTR = 268 

b . MSE = 92 

c . 不能拒绝 // 0 , 因为 F = 2.91<Fo o 5=4. 26 
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d. 


方差来源 

平方和 

自由度 

均方差 F 

处理 

536 

2 

268 2.91 

误差 

828 

9 

92 

总计 

1364 

11 



4. b. 拒绝队，因为 F = 80>F 0 . o 5=2. 76 
6. 拒绝 //o, 因为 F = 10. 63> Fo. os = 4. 26 
8 . 显著 差异； 

F = 1 . 00>Fo. os = 3. 68 
10. 显著 差异； 

值= 0_ 015 

12. 无显著 差异； p- 值 = 0.403>a = 0.05 
14. -8. 54到 -1.46 

16. a. 显著差异； F = 19. 86 > Fo.o 5 = 3. 10 

b. 显著 差异； 2. 3>LSD = 1. 19 
18.1 和2:显著差异 （LSD = 3. 38) 

1和3:显著差异 (LSD =3. 17) 

2和3:无显著差异 (LSD =3. 51) 

20. a. 


方差来源 

平方和 

自由度 

均方差 F 

处理 

1 488 

2 

744 5. 50 

误差 

2 030 

15 

135.3 

总计 

3 518 

17 



b. 在 A 和 C 之间有显著差异 
22. a. Ho - yLti=/X2 = /X6 = At4 = /X5 

H a ： 并非所有的总体均值都相等 
b. 拒绝 W。 因为 F = 14. 07>2. 69 
24 •显著 差异； F = 43.99 超过临界值 
在 3. 15和 3. 23之间 
26. b. 显著 差异； F = 9. 87> Fo . 05 = 3. 35 
28. 不显著； F = 1 . 78< Fo.os = 3. 89 
30, 不显著； F = 2. 54< Fo. os = 3. 24 
32. 均值都不相等 (LSD =2. 53) 

34. 显著； F = 6. 60> Fo. os = 4. 46 
36. 显著； F = 12. 60> Fo. os = 3. 07 
38. 显著 ； F = 1 . 12>Fo.os = 3. 26 
40. 显著差异 ； F - 22. 46> Fo. 05 = 2. 96 


42. 因子 A 是显著的，因为 F = 3. 72> Fo . o 5 =3. 01 
因子 B 是显著的，因为 F = 4. 94> F 0 .os = 3. 40 
交互影响是显著的，因为 F = 12. 52>F 0 . o 5=2.51 
44. 上下方法、游乐车类型或交互作用的影响无 
显著效果 

46. 因子 A 无显著影响 
因子 B 影响显著 
交互影响显著 

48. 显著 差异； p-{6=0. 000<a=0. 05 
50. 显著差异 
52. 显著差异 

54. 显著： F = 7. 23> Fo . 05 =4. 26 
56. 不显著； F = 1. 48< Fo.os = 3 . 35 
58. 显著； F = 5. 19> Fo . o 5 =4. 26 
60. 显著 ； F = 6 . 99> Fq .os = 4. 46 
62. 显著差异； p — {([ = 0. 000< a = 0. 05 
64. 机器类型有显著 影响； 装载系统和交互作用 
无显著影响 

第14章 

2. b. %和 y 之间存在线性相关关系 

d. y = 30. 33 -1.88^; 

e. 19.05 

4. b. %和 y 之间存在线性相关关系 

d. y= 一 240.5 +5.5% 

e. 106磅 

6. c. r = 6. 02 - 0.07^ 
e. 0. 42 

8 . a , y = 107. 13 + 3. 07 ^ 

c. 153.2 

10. b. y = 51.82 + 0. 145% 

c. 84.4 

12. c. y = 1 293+0. 316 

d. 25 031 

14. b. y =49. 63+2. 455 % 
c. 69. 3% 
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16. a . SSE = 6. 332 5, SST = 114. 80, SSR = 108. 47 

b . r 2 = 0. 945 

c . r = - 0.972 1 

18. a . SSE .= 85 135. 14, SST = 335 000， 

SSR = 249 864. 86 

b , 0.746 

c . r = + 0. 863 7 

20. a. y = >48. 11 +2. 332 5 a; 

b . r =0. 82 

c . 173 500 美元 

22. a . -1.02+0. I 3 x 

b . /^=0.363 1 

c . r = + 0. 602 6 
24. a . 2. 11 

b . 1.453 

c . 0. 262 

d . 显著 

J = — 7. 18 to . os = — 3. 182 

e . 显著 

F = 51.41>Foo5 = 10. 13 
26. a. 显著 

f = 3. 43 > to . 025 = 2. 776 
b. 显著 

F=11.74>F 0 .o5=7.71 

28. 它们是相关的因为 F = 20. 17>Fo.o 5 =4. 67 
30. 不显著相关 
32. a. L 11 

b. 7. 07—14. 13 

c . 2. 32 

d . 3. 22—17. 98 

34, 置信 区间： -0.4—4.98 
预测 区间： -2. 27 — 7. 31 
36. a . 80. 859 

b . 78. 58—83. 14 

c . 72. 92—88. 80 
38. a . 5 046. 67 美元 

b . 3 815. 10 美元 一6 278. 24 美元 


c . 不算过高 

40. a . 9 

b . y = 20. 0 + 7. 21 a ; 

c . 1.362 6 

d . 显著相关，因为 F - 28> Fq .os = 5. 59 

e . 380 500 美元 
42* a . y = 80. 0 + 50. Oac 

b. 30 

c . 显著相关，因为 F = 83. 17>F 0 .o5=4.20 

d. 680 000 美元 
44. b. 呈现线性关系 

c . r = 37.1 -0 .119 X 

d . 显著相关； /?- 值 =0. 003 

e . r 2 =0.434; 拟合度不高 

f. 12. 28 美元一 22. 91 美元. 

g . 17. 49美元一 39. 05美元 
46. a . $ = 2. 32 + 0. 64 x 

b . 不 满足； 对所有同样的％值，方差并不 
出现 
48. b . 合理 

50. a . 存在； ％ = 135，： r = 145可能是异常值 

b . 存在 

c . 存在 

52. a . y = 4. 09 + 0. 196% ' 

b . Minitab 确认出观测值1有较大的标准残 
差，我们应将其看做异常值。 

54. a . r = 707+0. 004 82 a ; 

b . 观测值 6 是有影响的观测值 
58. a . y =9. 26 + 0. 71 U 

b . 显著相关 

c . ^=0. 744;拟合度好 

d . 13. 53美元 
60. a . 市场 /8 = 0.95 

b . 显著相关 

c . r 2 = 0.470; 拟合度不好 

d . 有较高的风险 

62* a . y = 10. 5 +0. 953^ 
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b . 显著相关； p -值 =0.000 

c . 2 874美元一4 952美兀 

d . 建议签 

64. a . 负线性相关 

b. j = 8. 10-0. 344 a ： 

c . 显著相关； p - 值 =0.002 

d . P =0.711; 合理的拟合度 

e . 5. 2到 7. 6天 

66. a . y = 5. 85 + 0. 830无 

b . 显著相关； p - 值 =0.000 

c . 84. 65点 

d . 65. 35—103. 96 

第15章 

2. a . y = 45. 06 + 1. 9 Ax \ ; y = 132. 36 

b . 7 = 85.22+4.32^; f =150. 02 

c . y = - 18. 37 + 2. 01 x \ +4. 74 X2 ； 
j =143. 18 

4. a . 255 000 美元 

6. a . 速度 =49.8+0.015 自重 

b . 速度 =80.5-0. 00312 自重 + 0. 105 马力 
8. 年回报率 =247 -32.8 安全系数 +34.6 年 
支出率 
b . 70. 2 

10. a . 收入 =33.3 +7. 98汽车数 

b . 每增加1 000辆汽车，将增加798万美 
元收人 

c . 收人=106 + 8. 94汽车数 - 0. 191场地 
12. a . 0. 926 

b . 0.905 

c , 是 

14. a . 0. 75 
b. 0. 68 

16. a •否， R 2 = 0. 311 
b. 多元回归分析 
18. a . R 2 = 0. 942, Rl = 0. 932 


b . 拟合度是优 

20. a •显著的； p - 值 =0. 000 

b . 显 著的； p - 值 =0.000 

c . 显著的； 尸-值 =0.000 
22. a . SSE = 4 000, 5 2 = 571.43, 

MSR = 6 000 

b . 显著 ； F = 10. 50> Fo.os = 4. 74 
24. a . 拒绝 // o : /3 i = = 0; /> 一值 = 0. 000 

b . 自重： 不拒绝 W 。: 饵 =0; p - 值 =0.386 
马力 ：拒绝 //。: = 0; p - 值 = 0. 000 

26. a . 显著； 尸一值 = 0. 006 

b . 显著； p - 值 =0.000 

c . 不显著； p - 值 =0.087 
28. a . 132. 16 III 154. 15 

b . 111. 15 到 175. 17 

30. a . 速度 =72.6+0.096 8 马力； 速度估计值 
是 101.29 

b , 99. 49到 103. 09 

c . 94. 594到 107. 986 

32. a . 奶= 0如果水平1;私=1如果水平2 
E { y ) = + j 3\ X \ + /32 X 2 

K E { y ) - (3 o + (3\ X ] 
c . E ( y ) = + f 3\ Xi + 

d •炔 =£( yl 水平 2) - £(yl 水平 1) 

34. a . 15 300 美元 

b . 56 100 美元 

c . 41 600 美元 

36. a . f = 1.86+0.291 月数 + 1. 10 故障类型 
- 0. 609 维修人员 

b . 显著 ； p - 值= 0. 002 <a = 0. 05 

c . 维修人员是不显著的 

38. a . ： f =-91. 8 + 1.08 年龄 +0.252 血压 + 

8. 74吸烟者 

b . 显著； p -值= 0. 01 <a = 0. 05 

c , 95%的预测区间是 21. 35到 47. 19,或是 
0.213 5 到 0.471 9的 概率； 停止抽烟或 
采取一些降低血压的措施 
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40. a . y = - 53. 3+3. II x 

b . -1.40, -0. 15,1.36,0. 47, -1.39; 不支持 

c . 0. 38, 0. 28, 0. 22, 0. 20, 0. 98; 无 

d . 0. 60, 0, 00,0, 26, 0. 03,11.09; 有，第 5 个观 
测值 

42. b . 不支持 

c . 无异常值 

d . 观测值2是有影响的观测值 
44. b . 3. 19 

46. a . 3. 04, 3. 61, 5. 08 

b . 两者都显著 
d . 0. 91 

48. b, 显著 ； F =22. 79>Fo.o5 = 5. 79 

c . =0.861; 拟合度好 

d . 两者都显著 

50. a . 速度 =97. 6+0. 069 3 价格- 0. 000 82自 
重 +0. 059 0马力 -2.48 加速到60 

b. 显著相关 * 

c . 价格和重量不显著相关 

A 速度= 103+0,0558马力 -3. 190加速到60 

e . 不合理 

f . 观测值2是异常值 

g . 观测值12是有影响的观测值 

52. a 转让销售率 =38. 8+0. 000766建议零售价 

b . 拟合度 不高； R-Sq = 36. 7% 

c . 转让销售率 =42.6+9.09 车型1 +7.92 
车型2 +0.000 341建议零售价 

其中1=1,如果是轻 便车； 车型2 = 1， 
如果是赛车 

A 显著 相关； p -值 相应于 F = 14. 79 = 
0. 000 < a = 0.05 

第16章 

2. a . f = 9. 32 + ()♦ 424无; p - 值 =0. 117表明 x 
和 y 之间的相关性不显著 

b . y = -8. 10 + 2. 41 x -0.048 0 V 


祀 = 0. 932;拟合度好 

c . 20. 965 

4. a . y = 943 + 8, 71 x 

b . 显著； p - 值 = 0. 005 <a = 0. 01 
6. b . 不运用，适宜用曲线相关。 

c . 几种可能的模型 

y = 2. 90-0. 185^+0. 003 51 文 2 

8. a . 不适用简单线性回归模型 

b . 2 005% =17. 1 +3. 15 xl 999% - 
0. 044 5 x 1 999% Sq 

c . Log 2 000% =1. 17+0. 449 Logl 999% 

d . 部分 ( b ); 较高的变动百分比 
10. a . 显著； F = 49. 52>4. 24 

b . 显著 ； F = 48. 3>3. 42 

c . 显著； -4.46<-2.069( 此答案 C、D 
与习题不符，疑有误。——编者注） 

d . 处可能被减弱 

12. a . f = 170 + 6.61 抢断次数 

b . y = 280 + 5. 18抢断次数 - 0. 003 7带球- 
3. 92对手抢断次数 

c . 两个独立变量之和不显著 

14. a . - 111+ 1.32 年龄 +0.296 血压 

b . y = -123 + 1.51 年龄 +0.448 血压 + 

8. 87吸烟 -0. 002 76年龄血压 

c . 显著 y 

16. a 考入大学百分比= —26. 6+0. 0970 SAT 分数 

h 考入大学百分比= -26. 93 + 0.084 SAT 分 
数 +0. 204% 综合 SAT 

c . 同 ( b ) 

18. a . Greens 占的百分比 

b • 平均分数= 58. 2 - 0. 009 96 Distance - 
0« 152 Greens % +0. 869 Putts 
a 能 

d . 72. 65 

20. y = -91.8 + 1.08 年龄 +0. 252 血压 + 8. 74 吸 
烟者 

22. d = 1.60; 检验未能得岀结论 
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24. 


Xi 

Xi 

处理 

0 

0 

1 

1 

0 

2 

0 

1 

3 

无 3=0 如果群组 1; 无 3 

=1 如果群组 2 

E(y) = Po + PiXi + P 2 X 2 + (33X3 

26. a . 

Dt 

Di 

生产厂商 

0 

0 

1 

1 

0 

2 

0 

1 

3 

E{y) - /3o + f3\Di + P 2 D 2 

b. y - 23. 

0+5. 00 Di 

-2.00 Z ) 2 

c . Ho ： A 

=)82 =0 



d . 对每个生产厂商来说，平均时间并不 相等； 
p - 值= 0. 004 

28. 两个分析仪之间有显著差异 
30. a . 令 ExS 为费用比例和安全比例之间的交 
互作用 

业绩百分比 =23. 3+222费丽分比-23, 9 ExS 

b . R - Sq ( adj ) =65.3% 

c . 25. 8 或近似为26% 

32. a . AUDELAY =63.0 + 11. 1 INDUS ; 正的自 
相关性不显著 

34. 三种类型购物者的舒适度有显著差异 

第17章 

2. a . 32% 

b . 8. 14美元 
4. /2001 = 105 
6. / = 125 

8. /= 105;证券组合高于5% 

10. a . 1980工资： 8. 82美元 
2000 工资： 8. 32美元 
b . 97. 5% 增加 


c . 5. 7%减少 
12. a. 2 448,2 486, 2 557 

按美元计算，制造业每年略有增长 

b . 2 981，3 100, 3 203 

c . PPI 
14, 7=110 
16, / = 83 

18. a . 151,197,143,178 
b . 7=170 

20. /jan = 96, /Mar = 92 
22. / =117 

24. 36 082 美元; 32 528 美元; 27 913美元; 
34 387美元; 40 551 美元; 42 651美元; 
46 350 美元 

26. / = 143; 数量高于 43% 

第 18 章 

2. a. 


周 

4周 

5 周 

10 

19. 00 

18.80 

11 

20.00 

19.20 

12 

18, 75 

19.00 


b . 9. 65, 7. 41 

c . 5周 

4. 第 10, 11 和 12 周的： 18. 48, 18. 63, 18. 27 
MSE = 9. 25; a = 0. 2更好一些 
6. a . MSE (3 月 ） =1,24 

MSE(a = 0.2) =3.55 
使用 3 月移动平均 
b . 83.3 
8. a . 


月 

3月 

a =0. 2 

10 

256. 67 

265. 51 

11 

286. 67 

274. 41 

12 

263. 33 

267. 53 


对两者仅使用第4到第12个月的误差， 
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ct = 0. 2更好些 

b . 260 

10* c . 用 a =0. 3; Fn = 7. 57 
12. 乃 =4.7-2. U ; 17.3 
14. r , =20. 746 6-0. 351 4t 
16. 考虑一个非线性趋势 
18* a . T t = 0. 365 + 0. 193 1; 2. 49 美元 
b . EPS 按平均 0. 193 美元的比例增长 
20. a . T t = 1 997. 6 + 397. 545 1 
b . Tu =6 371 ， Tn = 6768 
22. a . 四个季度的滑动平 均值： 3. 50, 4. 00, 

4. 25, 4. 75, 5. 25, 5. 50, 6. 25, 6. 50, 6. 75 
移动平均中 间值： 3. 750, 4. 125, 4. 500, 

5. 000, 5. 375, 5. 875,6. 375, 6. 625 

b . 调整季节指数 ： 1. 205 0, 0, 746 3, 0. 8675, 
1. 1912 

注： 调整 =0.991 2 

24. 调整季节 指数： 0. 707, 0. 777,0. 827, 0. 966, 
1.016, 1.305, 1.494, 1.225, 0. 976, 0. 986, 
0. 936, 0. 787 
注: 调整=0,996 
26. a . 是 

b . 12—4： 166 761. 13 
4—8： 146 052.99 
28. a . 0. 2 更好一些 
b . 46. 1 
30. 20. 26 
32. a . a = 0. 5 

b . T t = 244. 778 + 22. 088 1 

c . 趋势推 测法； 较小的 MSE 
34. r 8 =252. 28, r 9 = 259. 10 
36. a . 是 

b . Z = 25^-151 
38. a . 出现线性趋势是合理的 

b . r t = 12 899. 98+2 092. 0661 

c . 2 092 066 美元 

d . 1997: 40 096 838 美元 


1998: 42 188 904 美元 

40. b . 调整季节指数 :0. 899,1.362,1. 118, 0. 621 
注： 调整 = 1.0101 
c . 第2个 季节; 似乎合理 
42. a . = 329 + 1. 055 1 

b . 36. 92, 37. 98, 39. 03,40. 09 

c . 33. 23,51.65, 43.71,24. 86 

第 19 章 

2. z = 3. 27; 拒绝 
4. z = 3. 15; 拒绝队 

6. z = 2.32; 拒绝 
8. z = 3. 76; 拒绝 //o 
10. z = 1.27; 不拒绝 if 。 

12. z = 2. 43; 拒绝 tf 。 

14. z = 2. 29; 拒绝 
价格有差异 
16. z = 2. 62； 拒绝 
18. r = 34; 拒绝 
20. r = 36; 拒绝払 
22. 之= 2.77;拒绝丑。 

P / E 比有差异 
24. z= -0.25; 不拒绝 tfo 
26. W =10. 22; 拒绝 i /。 

28. 妒= 9. 26; 拒绝执 
30. ，= 8,03;拒绝// 0 
32. a . 0. 68 

b . z = 2. 06; 拒绝 ffo 
34. z = 0.72; 不拒绝 
36. r ,= -0. 709; z = - 2. 13; 拒绝 
38. z = 3. 17; 拒绝 // 0 

40. (此答案与练习不符，疑有误。一编者注） 

a . z = -3. 20;拒绝 

休斯敦在全国平均标准之下 

b . z = 2. 21；拒绝 Ho 
高于全国平均标准 
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42. z = -2. 97;拒绝 // 0 
44. W =12.61; 拒绝 // 0 
46. r , = 0. 76; z = 2. 84;拒绝 Z/o 

第20章 

2. a . 5.42 

b . UCL = 6. 09, LCL = 4. 75 

4. 

及控制图 无控制图 
UCL 2. 98 29. 10 

LCL 0. 22 27.90 

6. 20.01,0. 082 
8. a . 0. 047 0 

b . UCL = 0.098 9 ’ LCL = 2. 004 9( 用 LCL =0) 

c . 戶 = 0. 08; 处于控制状态 

d . UCL = 14. 826, LCL = 一 0. 726 

如果有缺限的产品大于14,则处于过程失 
控状态 

e . 12个有缺陷的，在控制限以内 

f . n /? 控制图 

10. p = 0. 02;/(0) =0.603 5 
p =0. 06;/(0) =0.212 9 
12. /Jo =0.02; 生产者的风险 =0.059 9 
p 0 = 0. 06; 生产者的风险 = 0. 339 6 
当可接受值 c 增加时，生产者的风险减 
少。 

14, 71 = 20, c = 3 
16. a . 95. 4 

b . UCL = 96. 07, LCL = 94. 73 


c . 否 



18. 

及控制图 

X 控制图 

UCL 

4.23 

6.57 

LCL 

0 

4.27 

标准差的估计值 =0.86 



20 . 

及控制图 无控制图 

UCL 0.112 1 3. 112 _ 

LCL 0 3.051 

22. a . UCL = 0. 0817, LCL = -0.0017 
(用 LCL = 0) 

24. a . 0. 03 

b . /3 = 0. 080 2 
26. a . 生产者风险 =0.006 4 

b . 消费者风险 =0.013 6 

c . 优点：控制效果好 
缺点：成本高 

第21章 

2, a . 30 000 

b . 320 

c . 29 360—30 640 
4. 73 

6. 337 

8. a . 分层 1:27 600 
分层 2:25 750 
分层3: 21 000 

b . 74 350 

c . 70 599. 88—78 100. 12 

10. a . n = 93, n \ =： 30, n2 - 30, m = 33 

b . n - 306, ri \ - 98, ni - 98, m -\09 

c . n - 275, ni - 88, n2 — 88, n3 = 98 
12. a . 3 617 000 美元 

b . 1 122 265 美元 

c . 41 066 美元一 56 499 美元 

d . 9 568 261 美元一 13 164 197 美元 
14. a . 15,4 500,0. 30 美元 

b . 1.470 8, 441.24, 0.048 4 

c . 12.058 4—17. 941 6 

d . 3 617.52—5 382.48 

e . 0. 203 2—0. 396 8 
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16. a . 40 

b . O . 70 

c . 35. 863 4—44. 136 6 

d . 0. 523 4—0. 876 6 
18. a . 0. 148 8—0. 231 2 

b . 0.261 5—0. 358 5 
c _ 0. 130 6—0. 209 4 
20. a . 22 790 美元 一23 610 美元 

b . 68 370 366 美元一 70 829 634 美元 


c . 0. 669 2—0. 790 8 
22. a . 431 

b . 0, 217 5—0. 398 3 

c . 0. 623 0—0. 800 2 

d . 996 

24. a . 75. 275 

b . 0. 198—0. 502 

c . 1680 
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附录 E 自测题解答 


第1章 

2. a . 9 

b . 4 

c . 国家和房间等级是定性 变量； 房间数量 
和总分是定量变量 

d . 国家是名义 尺度； 房间等级是序数尺 
度； 房间数量和总分是比例尺度 

3. a . 平均房间数= 808/9 = 89. 78或近似为90间 

b . 2/9在英国约占22% 

c . 4/9需要$$级的客房，约占44% 

4. a . 10 

b . 《财富》美国500家最大的工业公司 

c . 平均收入 = 142275. 9/10美元 = 14227. 59 
百万美元 

d . 利用样本平均值，统计推断使我们估 
计出500家公司总体的平均收入为 
14 277. 59百万美元 

13. a . 定量的 

b . 具有7个观测值的时间序列 

c . 河船娱乐场的数量 

d . 时间序列显示了快速 增长； 1998年预期 
增长，但增速变缓 

第2章 

3, a . 360° x 58/120 = 174° 

b . 360° x 42/120 = 126° 



是 否 未表示 

意见 


等级 

频数 

百分比频数 

优异 

19 

0.38 

非常好 

13 

0. 26 

好 

10 

0. 20 

一敢 

6 

0. 12 

差 

2 

0.04 


经理对此结果会高 兴的： 64%等级是非常好 
到优异，84%的等级是好或者 较好； 将这些 
等级与以前的结果比较，可表明顾客对饭菜 
质量的评价是否有所提高。 
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12 . 


组别 

累积频数 

累积相对频数 

矣19 

10 

0. 20 

矣29 

24 

0. 48 

矣39 

41 

0. 82 

矣49 

48 

0.96 

矣59 

50 

1.00 


15. a/b. 


等待时间 

频数 

相对频数 

0—4 

4 

0.20 

5—9 

8 

0. 40 

10 — 14 

5 

0.25 

15 — 19 

2 

0. 10 

20 — 24 

J 

0.05 

总计 

20 

1.00 


c / d . 


组别 

累积频数 

累积相对频数 

矣4 

4 

0. 20 

矣9 

12 

0.60 

矣14 

17 

0.85 

^19 

19 

0. 95 

矣24 

20 

1.00 


e . 12/20=0.60 


23. 叶单位 =0. 1 
6丨3 


10 

11 

25. 9 
10 
11 
12 
13 


5 5 7 

13 4 8 

3 6 

0 4 5 

3 

8 9 

2 4 6 6 

4 5 7 8 

2 4 5 7 

1 2 


9 


14 4 

15 1 


29. 


y 


a . 


1 

1 

2 

总计 

A 

5 

0 

5 

X 

B 

11 

2 

13 


C 

2 

10 

12 


总计 | 

18 

12 

30 


y 


b . 


1 

2 

总计 

A 

100.0 

0.0 

100.0 

X 

B 

84.6 

15.4 

100.0 


C 

16.7 

83.3 

100.0 


c . 


y 



1 

2 

A 

27.8 

0.0 

B 

61. 1 

16.7 

C 

11. 1 

83.3 

总计 

100.0 

100.0 


d . A 值总是处于 y = 1 
5 值几乎总是处于 y = l 
(:值几乎总是处于 y = 2 


32. a. 


销售额/ 每股收益评分 

边际收益/ 

权益收益 0—19 20—39 40—59 60—79 80—100 总计 


A 

1 8 

9 

B 

14 5 2 

12 

C 

1 12 3 

7 

D 

3 1 1 

5 

E 

2 1 

3 

- 

4 4 6 9 13 

36 
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b . 


销售额 / 每股收益评分 

边际收益/ 

权益收益 0—19 20—39 40—59 60—79 80—100 

总计 

A 

11. 11 88.89 

100 

B 

8. 33 33.33 41.67 16.67 

100 

C 

14.29 14. 29 28. 57 42.86 

100 

D 

60. 00 20. 00 20. 00 

100 

E 

66. 6733. 33 

100 


中位数(第10第11个位置) 
37+40 


2 




38.5 


在家中办公的人年轻一些 
c . i =*^(20) =5;用第5和第6位数 

(? 1= 巧 冬 3 卫= 29.5 




75 

Too 


2 


(20) =15;用第15和第16位数 


较高的每股收益评分似乎与较高的销售额/ 
边际收益/权益收益 一致； 它们中的销售额/ 
边际收益/权益收益为 88. 89%的 A 级公司 
中有80或更高的每股收益 评分； 8个 D 或 E 
级的公司仅有1个的每股收益评分超过60 

第3章 


^ = 46+49 =4? 5 

d . i =~^^(20) =6. 4;靠近第7位数 

第32百分位数=31 
至少32%的人的年龄是31岁或更小 
17. 根差 =34-15 = 19 

将数据排序为：15,20,25,25,27,28,30,34 


3. 将数据排序为：15,20,25,25,27,28,30,34 
i =^^(8) =1.6; 靠近第2位数 

第20百分位数= 20 
i ="^^'(8) =2;用第2和第3位数 

第25百分位数 = 22. 5 


"^⑻= 5 . 2 ;靠近第6位数 

第65百分位数=28 
/ = ■⑻=6;用第6和第7位数 


第75百分位数= 


8. 


一 Zxi 775 
a *^~ = ^20 


= 38.75 


众数 =29( 岀现3次） 

b . 数据 排序： 22,24,29,29,29,30,31,31, 
32,37,40,41,44,44,46,49,50,52,57,58 


25 

Too 


⑻=2; ⑦ = 


20+25 
一^ — ^ 


= 22.5 


75 

Too 



28+30 

2 


= 29 


IQR= Q 3 - Q ： =29-22.5=6.5 
- Xxi 204 c 

0C ^ ~ • J 

n o 


Xi 

(Xi-X) 

(Xi -x ) 2 

27 

1.5 

2.25 

25 

-0.5 

0. 25 

20 

-5.5 

30. 25 

15 

-10.5 

110. 25 

30 

4.5 

20. 25 

34 

8.5 

72.25 

28 

2.5 

6.25 

25 

-0.5 

0. 25 



242. 00 

s 2 

Z (xi -x ) 2 242 

= 34. 57 


5 = V 34. 57 = 5. 88 
18. a . 极差 = 190-168 = 22 


b . x — 


1 068 

了 


=178 


Tl 
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2 X(xj-X) 2 

n-l 


4 2 + ( -10) 2 + 6 2 + 12 2 + ( 一8) 2 +( —4) 2 

6 一 1 


376 

~ 


= 75, 


2 


c . 5 = V 75. 2 = 8. 67 

d . -=-(100) =*—-^-(100) =4. 87 

X i / o 

27. 切比雪夫 定理： 至少 （1-1/ z 2 ) 


a . 


卜¥ 


= 2；(1- K 2 )=0. 75 


& = 1 872 

中位数(第11个位置）=4 019 
i =-^(21) =15.75； 靠近第 16位数 
( h : 830 5 

五数概括:608，1 872,4 019,8 305,14 138 

b . IQR = <? 3 - <?, =8 305 -1 872=6433 
下限值： 1 872-1.5(6 433)= -7 777 
上 限值: 8 305 + 1.5(6 433) =17 955 

c . 没有； 数据在限值之内 

d . 41 138>27 604； 41 138应该算异 常值； 
数据值应重新核对和更正 


b . z =' 4 — 5 — =3; (1 2 ) =0. 89 

c . z 祖 =1‘ 6; (1 =0. 61 



0 3 000 6 000 9 000 12 000 15 000 


A!") — 3 (") 2 

d _ z = - r - = 2 . 4 ； (1 -]/ 2 A )= 0 . 83 


47. b . 在 x 和 y 之间呈负线性相关关系 
c . 


e _ z 拉 =3. 6; (1 - l /^ i6 2 ) =0. 92 


40. 将数据排序为：5,6,8,10,10,12,15,16,18, 
i = -^-(9) =2. 25;靠近第3位数 

^ i =8 

中位数(第5个位置 ）=10 ， 

h ^(9) =6. 75;靠近第7位数 
^3 = 15 

五数概括： 5, 8，10, 15，18 


_«麗_8變瑪 


5 10 15 20 

43. a . 将数据由低到高排序 

i = jio (2 l ) =5. 25;靠近第6位数 


X i 

yi 

JC , - 5 

yi-y (Xi- 

-无 )（P 

4 

50 

一 4 

4 

-16 

6 

50 

-2 

4 

- 8 

11 

40 

3 

一 6 

-18 

3 

60 

-5 

14 

-70 

16 

30 

_8 : 

-16 

- 128 

40 

230 

0 

0 

-240 

X = 

= 8 ;y = 

46 



Sxy 


_ -240 ^ 
"" 4 ~ 

— 60 


样本协方差表明％和 y 之间存在着负线 
性关系 

1 Ay 60 一 0^7 

d . rxy = = (5. 43)(11， 40) = - 0 ， 97 

样本协方差系数 -0.97 表明存在很强的 
负线性相关关系 
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55. a . 


b . 






ABD 

ACF 

BCE 

CDE 

fi 

Mi 

fiMi 


ABE 

ADE 

BCF 

CDF 

4 

5 

20 


ABF 

ADF 

BDE 

CEF 

7 

10 

70 


ACD 

AEF 

BDF 

DEF 

9 

15 

135 

6. 

P { E ,) =0. 40, P ( E 2 )= 

0.26, P ( E 3 ) 

_5 

20 

100 


利用相对频数法 




25 


325 

9. 

/ 5 0\ 50! _ 

50 - 49 

• 48 

•47 

x = 

Ifi Mi _ 325 _ 

一 1 亡 "" 

=13 

U ' —4!46! 一 

4 - 3 

• 2 • 

1 一 2 


10 . a . 利用相对频数法 


/ 

Mi ( Mi — 

(Mi - x ) 2 

fi ( Mi - x ) 2 

P (加利福尼亚 ）=1 434/2 374 =0. 60 

4 

5 -8 

64 

256 

b . 不来自这四个州的数 

7 

10 -3 

9 

63 

= 2 374-1 434 - 390 -217 -112 

9 

15 2 

4 

36 

= 221 

J 

20 7 

49 

245 

P (不来自这四个州 ）= 221 /2 374 = 0. 09 

25 



600 

P (不是处于早期阶段） =1-0. 22=0. 78 


S 一 n -1 

600 

~ 25-1 - 

= 25 

d . 马萨诺塞的公司处于早期发展阶段的估 
计数 = (0. 22)390^86 


s = 425 =5 



e. 如果假设各州接受投资的规模无差别， 

a. 

等级分 A 

权重 M 


我们可用风险投资总支付额乘以投向科 

罗拉多州的概率进行估计 . 


4(A) 

9 


科罗拉多基金的估计= (112/2 374) (32.4 


3(B) 

15 


美元 ） = 15. 3亿美元 


2(C) 

33 


作 者注： 实际到科罗拉多的资金额是 


KD) 

3 


17. 4亿美元 


0(F) 

_0 


15. a. S =( 草花点数，方格点数，红桃点数， 


X 


1 - 


60 学时 

9(4) + 150)+33(2)+3(1) 


S 


Wi 


150 


9 + 15+33 + 
2.5 


b . 能 


第4章 


2 . 





6 ! 


6 • 5 • 4 • 3 • 2 


3!3! — (3 • 2 • 1)(3. 2 • 1) 
ABC ACE BCD BEF 


= 20 


黑桃点数） 

b . S =( 草花点数) 

c . 四种花色其中之一的 J 、 Q 或 K 

d . ( a )： 4/52 = 1/13=0. 08 

( b ) ： 13/52 = 1/4 = 0. 25 

( c ) ： 12/52=0,23 
17. a . (4,6)，（4,7)，（4, 8) 

b . 0.05+0. 10 + 0. 15=0. 30 

c . (2, 8)，（3, 8)，（4, 8) 

d _ 0. 05+0. 05+0. 15=0. 25 

e . 0. 15 

23. a . P ( A ) = P ( E ,) + P (&) + P ( E 6 ) 
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= 0. 05 +0. 25+0, 10 = 0.40 


0. 386 


P(B) = P(E 2 ) + P(E 4 ) + P(E 7 ) 

= 0. 20 + 0. 25+0. 05 = 0. 50 
P( C ) = P( E 2 ) + P( E 3 ) + P( Es) + P( En) 

= 0. 20+0. 20+0. 15+0. 05=0.60 
b. A\J B = { £*i, E 2 , £*4, Ee, Ey} 

P{AUB) = P(£l) + P{Ei) + Pi&) + P(Es) + P(Ej) 
= 0. 05 + 0. 20 + 0. 25 + 0. 10 + 0.05 
= 0. 65 


e . 由于独立性，我们有 P(A) P(B) = P 
MflB ); 从表中得出 P(AH 5)=0. 218, 
P(A) =0. 461, P(B) =0. 426 
P{A)P(B)=(0. 461)(0. 426) =0. 196 
因为 P(A)P(B)^P(AnB), 事件不独立 
39. a . 互斥，因为 P(A l r\A 2 ) =0 

b . P(A l nB) = P(Ai)P(B\A ] ) =0.40(0.20) 
= 0. 08 


c . AfU 5= {£ 4 }, P ( AHfi ) = P(Ea) =0. 25 

d . 是的，它们互相排斥 

e . B 0 : I E h £3, Es, Ee} 

P(^) =P(^i) +P(ft) +?{Es) +P(R) 


P(A 2 DB) = P(A 2 ) P(B\A 2 )=0. 60(0. 05) 
= 0. 03 

c . P(B) = J P(A 1 f!B) + J P(A 2 nB) 

= 0. 08 + 0. 03 = 0. 11 


= 0. 05+0.20+0.15 +0.10 
= 0.50 

28 .令 B = 因商务而租车 
因私事而租车 

a P(BUP) = P(B) + P(P) - P(BDP) 

= 0. 540+0. 458-0. 300 
= 0. 698 

b . P (不租车 ）=1 -0.698=0.302 

rw n n 、 P(ADB) 0.40 a /"， 
30. a . P(A\ B) -—户(万 〆 ■ = =0. 6667 


b . P(B\A )= 


p(Ar\B) 

P(A) 


0.40 
= 0. 50 



80 


d. PiAAB) =^y| = 0. 727 3 

P(A 2 \ B) =-^yy = 0. 272 7 

42. M = 坏账 
/^ =客户拖欠 
D 2 = 客户未拖欠 

P ( Di ) = 0. 05, P ( Di ) =0. 95, P ( M \ Di )= 
0.2, P(MI A ) =1 
a . P { DAM )= 

_ F ( Z ) i ) P(M 1 Z ) i )_ 

P ( Z ) i ) P(M I Z ),) + P ( D 2 ) P(M I D 2 ) 


c . 不独立，因为 P(A\B)^P(A) 


33. a 


申请理由 



学校质量学费或方便性 

其他 

总计 

全曰制 

0.218 

0. 204 

0. 039 

0.461 

非全曰制 

0. 208 

0. 307 

0. 024 

0.539 

总计 

0.426 

0.511 

0. 063 

1.000 


b . 学生最有可能是以学费或方便为首要理由 
(概率 =0.511); 以学校质量为首要理由的 
学生第二多(概率 =0. 426) 

c . (学校质量 I 全日制 ）=0.218/0.461 =0.473 
d P (学校质量丨非全日制 ）=0. 208/0. 539 = 


_ (0. 05)(1) 

一 （0. 05)(1 ) + (0. 95)(0. 2) 


0. 05 
= 0724 


= 0 . 21 


b . 应该收回，因造成坏账的概率已超过 0.20 


第5章 


1. a . 正，正（//， //) 
正，反（孖，了) 

反， iE ( r , h) 
反，反（7\ r ) 



b . x = 掷两次硬币正面朝上的次数 


d . 离 散的； 可定为3 个值： 0, 1和2 
3 .令： y = 录用 
/v = 不录用 

a . S={U F ， Y ), ( Y , F , N )，（ Y ， N ， Y )， 

( Y ， N ， N )，（ N ， Y ， Y )，（ N ， Y ， N )， 

( N , N ， Y )，（ N ， N , N )) 

b . 4 N = 录用的 数目； iV 是离散随机变量 

c . 

面试 u Y,(y, Y,(Y, N，（Y，NAN, YAN, YAK N，{N, N， 
结果 Y) N) Y) N) Y) N) Y) N) 

W 的值 ~3 2 2 1 2 1 I 0~~ 

7. a . / U ) 多 0 对所有 x 值 

z/(d = l ; 于是，它可以为概率分布 

b . 概率戈= 30是/(30) =0. 25 

c . 概率 欠彡 25是/(20) + J 125) =0. 20 + 0. 15 
= 0. 35 

d . 概率 $>30是 /(35)二 0.40 

8. a . 

X fix) 

1 3/20 = 0. 15 

2 5/20 = 0. 25 

3 8/20 = 0. 40 

4 4/20 = 0. 20 

总计 1. 00 

b * fix) 

0.4~ 

0. 3 ~ 

0 . 2 ~ 

0. 1 - I 


c . /( %)多0对 ％ = 1，2, 3,4 


' Zf ( x ) = 1 

16. a . 

y f(y) yf(y) 

2 0.20 0.40 

4 0.30 1.20 

7 0.40 2.80 

8 0. 10 0.80 

总计 1.00 5.20 


E( y) = /t = 5. 20 
b . 


y 

y -於 

(” M ) 2 

f(y) 

(y - 抖 ) 2 /( 少 ) 

2 

-3.20 

10.24 

0. 20 

2.048 

4 

-1.20 

1.44 

0.30 

0. 432 

7 

1.80 

3.24 

0.40 

1.296 

8 

2. 80 

7.84 

0. 10 

0. 784 




总计 

4. 560 


Var ( y) =4. 56 

cr = >/4. 56 - 2. 14 


18. a / b . 


X 

f(x) 

xf(x) 

(x-fi) (x-fi) 2 (y 


0 

.01 

.00 

-2.3 

5.29 

0. 052 9 

1 

.23 

.23 

-1.3 

1.69 

0. 388 7 

2 

.41 

. 82 

— 0. 3 

0. 09 

0. 036 9 

3 

.20 

.60 

0.7 

0.49 

0. 098 0 

4 

• 10 

.40 

1.7 

2. 89 

0. 289 0 

5 

.05 

.25 

2.7 

7. 29 

0. 364 5 


E(x) 

= 2. 30 


Yar ( x) 

= 1.230 0 





a 

= 1.11 


概率分布的数学期望 E ( x )=2. 3,与 1997 
年《美国统计摘要》 （ Statistical Abstract of 
the Sto 如)报道的电视机的平均拥有 

量= 1. 23相同，标准差 

cr = )/1723 =1.11 
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值 

w-2 1 1 o 

JC 


果钔 r ) i /) r ) 
结 ，：， 

孖 "r r 

/IN /(\ /(\ /(\ 


C 


2 


4 


x 
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(0.4) 


(0.6) =0. 48 


c /0) = (^(0. 4)°(0. 6) 2 =-^ y ( l )(0. 36)=0. 36 

d . /(2) = (^) (0.4) 2 (0.6)°=^-(0. 16) 

(0. 1) =0. 16 

e . P ( x ^ l )= J [\) + J {2) =0. 48+0. 16=0. 64 

f . E ( x ) ^ np = 2(0. 4) = 0. 8 

Var ( x ) = np(l - p ) =2(0. 4) (0. 6) = 0. 48 


cr = =0. 6928 

30. a . 每次试验中发现次品的概率必须是 
0. 03;试验必须是相互独立的 
b . 令0 =次品 

G = 无次品 实验次品 



c . 两种结果正好发现一件次品 

d . P (无次品 ） =(0.97)(0.97) =0.9409 


39. a. /( x) 


P(l 件次品） =2(0. 03)(0.97) =0, 058 2 
戶(2件次品 ） = (0. 03)(0.03) =0. 000 9 
2 x e ~ 2 


x \ 


/x = 6在3个时段内 

6*e _ 6 

fix ) 


X 


d . /(2) = = 巡 Y '— = 0 - 270 6 

e . f (6) =4^ = 0. 160 6 


f _ /⑸= 


6 ! 

4 5 e 


0. 156 3 


40. a . yx = 48(5/60) - 4 

/( 3 ) = yp ^-= ( 64 )( 0 ^ 01 ? 3 ) . =0 . 1952 

b . ^ = 48(15/60) =12 

1 2 10 -12 

/(10) — = 0. 104 8 

c , ^ = 48(5/60) =4; 期望有 4 个电话等待 5 
分钟以上 

4 V 4 


/( 0 )= 




0. 018 3；无人等待5分钟以 


上的概率是 0.018 3 
d . 弘= 48(3/60) =2.4 
2. 4° e ~ 2 - 


A0) 


0 ! 


= 0.090 7; 3分钟内未被 


电话打扰的概率是 0. 090 7 


46. a. /(I)= 


tat 1 ：：?) 

(3)(35) 


3! 




l \2 \J \3\4\ 
10 ! 

4!6! 


210 


0. 50 


b. m 




mi 


(3)(1) 

45 




0. 067 
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50. N — 60, n = 10 
a . r = 20, % = 0 


/( 0 ) = 


20\ /40> 
0 ' (10〉 

IT 


(i 


40! 


10!30! 


■) 


60! 


10!50! 


- ( 40! \ f 10150! \ 

~ ll 0!30 !/V 60! / 

40 • 39 • 38 • 37 • 36 • 35 • 34 • 33 • 32 • 31 
= 60 • 59 • 58 • 57 • 56 • 55 • 54 • 53 • 52 _ 51 

岛 0.01 


b . 


r = 20, x = 


/(l)= 





«0. 07 

c . 1-/(0) -/( l ) =1-0. 08=0. 92 

d . 与洛来自夏威夷的概率 相等； 在 ( b ) 中近似 
等于 0. 07 


b . 陳25<欠< 0.75) =1(0.50) =0.50 

c . P ( ^^0. 30) = 1(0. 30) =0. 30 

d . P ( x >0. 60) =1(0. 40) =0. 40 
13. a . 0. 6879 - 0. 0239 = 0. 6640 


b . 0. 888 8-0. 698 5=0. 190 3 

c . 0. 959 9-0. 8508=0. 1091 

15. a . 查表可知面积为 0.500 0-0.211 9 = 


0. 288 1; 

2 = 0. 80 切断 0.211 9 右侧的 面积； 因 
而， 0.211 9左侧的面积，2= -0.80 
b _ 查表可知 0.903 0/2 =0.451 5;之=1.66 

c . 查表可知 0. 205 2/2=0. 102 6; z = 0. 26 

d . 查表可知 0.494 8; ^ = 2.56 

e . 查表可知 0. 191 5;因为要查的值小于均 
值，所以 z 值肯定 为负； 于是 -0.50 

18. a . 查出 P ( x ^60) 


在无= 60,之 


60-49 11 


16 


16 


= 0. 69 


P ( x <60) =0. 7549 
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P ( x ^60 )=l - P { x <60)=\-0. 754 9 
= 0. 2451 



a . 


fix ) 



0.50 1.0 1.5 2.0 


b . PU = 1.25) =0; 任何单点的概率均为零，因 
为在任一单点上方的面积为零 

c . P ( l . 0(%彡 1.25) =2(0.25) =0.50 

d . P ( l . 20 <%<L 5) =2(0. 30) =0. 60 

4. a . 


fix ) 
1.5 
1.0 
0.5 


0 1 


闕鋼攀釋 


x 


2 


3 


b . 查出 P ( x ^30) 

在 x =30, z = 3 j ^ 49 = -1. 19 


P ( x ^30) =0. 500 0-0. 383 0 
= 0. 1170 

c . 查出 2 -值以便 PU 彡 z - 值 ）=0. 10 
z -值为 1.28, 使右侧减少10%;由此 
计算相应的％值 


L 28 


x ~ 49 
16 


^=49 + (16)(1.28) 

= 69. 48 

于是10%的读者花 69. 48分钟或更多 
的时间阅读《华尔街日报》 

27. a . P ( ^)=1 - e ~ Xo/3 

b . P ( x ^2 )=l - e ~ 2/3 = 1 -0. 5134 = 0. 4866 
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c , P(x^3) = 1 - P(x^3) = 1 - (1 - e ~ 3/3 ) 
= e" 1 =0. 367 9 




d . P(x^5) = l - e' 5/3 = l -0. 1889=0.811 1 

e. P(2^x^5) =： P(x^ 5)-P( x^2) 


= 0. 811 1 -0. 486 6=0. 324^5 

29. a. 

fix ) 



c . P (^^6) = 1 - e- 6/12 = 1-0. 6065=0. 3935 

d . P(x^30) =1 一 P ( x<30) 

=1 - （ l - e _ 30/12 ) 

= 0. 0821 


n - Xxi 465 

1*3. a. x — = : 

n 5 

= 93 


b . 



^ (.Xt — 

x) 

-x) 

94 

+ 1 

1 

100 

+ 7 

49 

85 

-8 

64 

94 

+ 1 

1 

_92 

-1 

J 

总计 465 

0 

116 

jX(xi-x) 

V n -\ 

i 

~ = A 

j 4 =5 . 39 


19. a. 样本服从正态分布, 其中: 

E(x) = /x = 200 

cr 50 = 

cr% =~p=r = ~7= = 5 

/7T 獅 


对于 +5, (元 一/ x ) =5, 


x~ JJi 
Z = - 

CTx 



第 7 章 

1. a. AB ， AC, AD, AE, BC ， BD, BE, CD, CE, DE 
b . 每 10 个样本，每个样本被选中的概率是 
1/10 


面积 =0. 341 3 x 2=0. 682 6 
b . 对于: 1 10, (x- / jl ) = 10, 


面积 =0. 477 2 x 2 = 0. 954 4 

25. a. 


c , E 和 C 因为8和0 不用； 5定义为 E ; 7 
不用； 5 跳过去因样本中 已有； 3定义为 
C ; 2不需要因为样本容量为2的条件已 
满足 

3. 459, 147, 385,113, 340,401,215,2,33, 348 

11. a. ^ =— =^ = 9 

n 6 


b . 





51 300 51 800 52 300 


Z(^-%) 2 = ( -4) 2 + ( - l ) 2 + l 2 + ( -2) 2 + 
l 2 + 5 2 =48 



yTn 


4 000 

V60 


= 516.40 
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^ = ^™ =+a97 


面积= 0. 334 0 x 2 = 0. 668 0 


cm = 


a 


4 000 


VI20 


= 365. 15 


52 300-51 800 , _ 

Z= 365^5~~ =+1 . 37 


爾 R =0. 4147 x 2=0. 82 S 4 
34. a , E ( p ) = 0. 40 


CTp = 


lp ( l - p ) 1(0. 40)(0. 60) 


n 


200 




z 


(X 034 6 


P~P 


0.03 


0346 


= 0.87 


b . z 


面积 =()• 307 8 x 2=0. 615 6 
p ~ p 0« 05 


_ 0. 034 6 


= 1.45 


面积 =0. 4265 x 2 = 0. 853 0 


37. a . 



0.30 






- p ) /0. 30(0. 70) 


100 


=0. 045 8 


服从正态分布，因为 np = 100(0. 30) =30 和 
n ( l - p ) = 100(0. 70) =70 两个值都大于 5 
b . P (0. 20^ p ^0. 40) =? 


^- Q ^ 04 - 58- =2 - 18 


面积 =0. 485 4 x 2=0. 970 8 
c . P (0. 25^ p ^0. 35) =? 




面积 = 0. 362 1 x 2 =. 724 2 


第 8 章 

2 . m ± Z a n{(T / f ^ )具有样本标准差 S 用来 
估计^ 

a . 32 ±1.645(6/ 顶） 

32 ±1.4; 30. 6—33. 4 

b . 32 ±1.96(6/ 画） 

32 ±1.66; 30. 34—33. 66 

c . 32 ±2. 76(6/ n /50 ) 

32 ±2. 19; 29. 81—34. 19 

5. a . 1 . 96 a / f ^ = 1. 96(5. 00/ ^49 ) =1.40 
b . 24. 80 ± 1. 40; 23. 40—26. 20 


15. a . x = 


80 
一 8 


Ti 


=10 


b , 5 = 


Z ixi -xr 
n — 1 


84 


-1 




3. 46 


c . 自由度为 7 ， fo. 。25 = 2, 365 


X ± to. 025 


10 ± 2. 365 


s 


^Tn 

3. 46 


10 ±2. 90; 7. 10 到 12.90 

17. 90% 时，80士 《 0 . 05 U //7 j 自由度 = 77 
to . 05 = 1. 740 

80 士 1.740(10/ 掘） 

80 ± 4. 10; 75. 90—84. 10 

95%时，80 ± to . o 25(10/ VT 8) 自由度=17 

( 0.025 = 2. 1 10 

80 ±2. 110(10/顶) 

80 ±4. 97; 75. 03—84. 97 

24. a . a 的计划值 =- = 9 


4 


4 
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b . 7 i = — =- L ^\o~ =34. 57；用 7 i =35 


E 2 


m 


c . n = 


(1. 96) 2 (9) 2 

~ U) 2 ~ 




77, 79; 用 7 i =78 


25. a . Ti = 


E 1 


5. a . 拒绝 ft :/ x 矣 8. 6 它是真的 
b . 接受 i / o :/ x ^8.6 它是假的 
10. a . z = 2. 05 


拒绝 ft 如果 z>2. 05 


b . 


x- fjL 16. 5-15 

Z sAfn^ 7/^40 


1.36 


b . 




(1.96) 2 (6. 82) 2 
(1. 5) 2 

(1.645) 2 (6.82) 

( 2) 2 


= 79. 41; 用 

I 

: = 31. 47; 用 


7 i = 80 

7 i = 32 


31. a . p 


400 


= 0.25 


c . 当 z = 1. 36 时，面积 = 0. 4131 

p - 值: =0. 500 0-0.413 1 =0. 086 9 

d . 不拒绝 

13. a . i / o : fJ^ 105 6 
H a - / x <105 6 

b . 如果 z < - L 64 5 拒绝 Fo 


b . 


^/p(l-p) 


/ O . 25(0. 75) 
V 400 


= 0,021 7 


_ 无一从 910-1 056 
C * Z = s/G = 1 600/ 厕 


-1.83 


C. /? ± ZO. 025 



0. 25 ±1.96(0. 021 7) 

0. 25 土 0. 042 4; 0. 207 6—0, 292 4_ 

35. a, p = 562/814 = 0. 690 4 

二 0. 026 7 


b . 1.645 


(0.690 4(1 —0.690 4) 


814 


c . 0. 690 4 ± 0. 026 7; 0. 663 7—0. 717 1 


39. a . 



1.96 2 p(l - p ) 

E 2 


d . 拒绝 // o ; 得出 / i<l 056 

e . 广值 =()• 5000 - 0.4664= -0.033 6 
22. a . 如果 z <-2.33 或 z >2.33, 拒绝 // 0 


b . 



x- li 
O'/ y[~n 


14.2-15 
5/ 画 


=1. 13 


c . 值 =2(0.5000-0.3708) =0.2584 

d . 不拒绝 

25. a . 如果 z <- l _96 或 z > 1.96, 拒绝 // 0 
, x- fjio 38. 5 - 39. 2 ,〜 

b . Z= s/^r = 4.8/V1T2 = - L54 


1.96 2 (0. 33)(0.67) 
(0. 03) 2 


= 943. 75; 


b . 


用 n = 944 

2. 576 2 (0. 33)(0. 67) 
71 = (0:03)— 2 


=1 630. 19; 


用 = 1 631 
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8.. fi(y 14 
Ha: JX >14 

b . 没有新计划能增加销量的证据 
C. 支持备选假设 / x >14; 新计划增加销量 


C. 不拒绝// 0 


d . 广值 =2(0. 500 0-0.438 2) =0. 123 6 


34. a . x 


Ixi 108 





b . 



V6 


10 


一 1 


1.41 


c . 拒绝 //。如果 t < - 2. 571 或 t >2. 571 

1 . x- n 18 -20 

a . t = " = , — = - 3. 4 / 

s/ yfri 1. 41/ ^T6 


e . 拒绝得出仗或是真的结论 
37, a . Ho' /a = 3. 00 
H a ： / Xt ^3. 00 

b . 拒绝 // 0 如果 K - 2. 262 或如果 t >2. 262 



1028 商务与经济统计 


c . 无 =X xi / n = = 2. 80 


d . 5 = 


= 0. 70 


x - /jlq 2. 80 ~ 3. 00 
e，= 0.70/^10 

f . 不拒绝 7/ 0 



-0. 90 


g . fo. io = 1. 383;/> - 值大于 2(0.10) = 0. 20 
44. a . 拒绝 // o ; 如果 z<-1.96 或 z >1. 96 


b . crp = 


/0: 20(0. 80) 
V 400 


= 0. 02 


p ~ p _ 0. 175 - 0. 20 

Op 0.20 


-1.25 


c . p -值 =2(0. 5000-0. 3944) =0.211 2 

d . 不拒绝 i / 0 

47. a . 拒绝 tf 0; 如果 z 〈- 1.645 
b . p =52/100=0. 52 

/ p ( 1 - p ) /0. 64(1 -0. 64) 

n = V 100 


= 0. 048 0 

p-p — (X 52-0. 64 一 
z ~ cr p ^ 0.048 0 ^ 


c . 拒绝 i /。; 得出小于64%是一致的结论 

d . p - it =0. 500 0 -0. 493 8=0. 006 2 

56. 



c = 10-1.645(5/ V 120) =9. 25 
如果 K 9.25, 拒绝 // 0 
a . 当 /x = 9， 


9. 25 - 9 

Z= 5/VT20 


= 0. 55 


P ( Ho ) = {0. 500 0-0. 208 8) =0. 291 2 

b . 第二类错误 

c . 当 m = 8 时， 


9. 25 - 8 
5/^120 


= 2. 74 


i 8= (0. 5000-0. 496 9) =0.003 1 
59. a . Ho * / x ^25 
i / a ： / x < 25 

若 z < - 2. 05,拒绝 // 0 


x - /Jio 3 c - 25 
a/i^ "" 3/V30 


一 2.05 


解得元 =23. 88 

决策规划 ：接受 i / G 若 S > 23. 88 
拒绝若 x < 23. 88 
b . 对 /x = 23. 


23.88-23 
z= 3/y/30 


= 1.61 


)8 = 0. 500 0-0.446 3=0. 053 7 
c . 对 /x = 24. 


23. 88 - 24 

Z = ~3/ M ~ 


- 0,22 


/3 = 0. 5000-0. 087 1 =0.587 1 
d . 这种场合不可能发生第二类 错误； 注意当 
/x = 25.5 时，//。 是真： 第二类错误只可能在 
// 0 是假时发生 

_ ( za - z s )< r 2 (1.645 + 1.28) 2 (5) 2 

64 (鄉-叫） 2 = (10 ;9) 2 = 

214 

67. 在 /io = 400, a = 0. 02; Z0.02 = 2,05 
在/^ = 385，月= 0. 10; zo . io = 1.28 
具有 cr +： 30, 

( za + z B )( T 2 (2.05 + 1.28) 2 (30) 2 
( fio - fio ) 2 = (400 -385) 2 

= 44. 4或45 
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1. a . xi ~ X2 = 


13. 6 ^2 l 1. 6 = 2 


b . 


s 


X\ -X2 





+ 35 =0 - 595 


2 ±1.645(0. 595) 

2 ±0.98 或 1.02—2.98 
c . 2 ±1.96(0. 595) 

2 士 1. 17,或 0. 83—3. 17 


8. a . L -无 2 = 15 700 - 14 500 
b . 合并方差 

， 7(700) 2 + 11(850) 

S 2 =-- 


=1 200 

-= 632 083 


= >32 083 (j = 362. 88 

自由度为 18 f 0.025 =2. 101, 

1 200 ±2, 101(362. 88) 

1 200 ± 762,或 438— 1 962 
c . 两个总体是正1分布且方差相等 

=1. 18 

(^1 一无 2) 一 (Ml 一从 2) 

^Xy -X2 


11 . 2 U —^2 = 



(5.2) 2 . 6 2 


40 


50 



d . 自由度为4, “,。 5 =2, 132;拒绝仏，若 
t >2. 132 


d - fju 
= syf ^ = 


-o 


i//y 

拒绝 Ho ; 得出叫>0 
23. d = 之后比例-之前比例 


2. 24 


// o : 

Hu fid >0 

自由度为7,拒绝//。若 ^>1. 895；当 5 = 0. 63 
和〜 = 1.302 5时， 

_0._的- 0_ 36 

- 1. 302 5 /VT ' 

不拒绝我们能得出看广告能提高潜在购 
买力的结论 

^ - nipi + U 2 P 2 200(0. 22) + 300(0. 16) 

^ * a，p = Tii+rn = 200 + 300 —— 


= 0. 184 

s - P ， Pi = ^( 0 ^ 84 )( 0 . 816)(^0 + 300) 


(25.2-22. 8) 
— ~ 1. 18 ~ 


= 2.03 


若 z > 1.645, 那么拒绝 //。 ; 得出凡是真 
和 /ii >叫 

b . p - 值 =0.500 0-0, 478 8 =0.021 2 
15. Ho ： /M - fMi =0 

Ha* JJj\ fJL/l 7 *^ 0 

若 z <-1.96 或若 z >1.96 ，拒绝乐 

1 ( xi - x 2 ) -0_40-35_ 

4 cr 2 / n \ + aVni \/(9 ) 2 /36 + ( l 0) 2 /49 


= 0. 035 4 


若 z > 1.645, 拒绝 // 0 

( O . 22 - 0. 16) ~ 0 
z= 0. 035 4 


1.69 


拒绝 //o 

b . p - 值 = (0.5000-0.454 5) =0.045 5 


第 11 章 

2. 5 2 =25 


= 2. 41 


a . 自由度为 19 x 2 o . 05 =30. 143 5 和 x 2 o -95 = 


p - 值 =2(0. 5000-0. 4920) =0. 016 0 10. 1170 


拒绝 // o ; 两个百货公司的顾客的平均年龄不 
同 


19(25) ^ ，二 19(25) 
30. 143 5 ~ ~ 10. 117 0 


21. a . 1,2, 0,0,2 

b 2- H-i 

tv — 一产 _ 1 


15. 76 彡 o * 2 彡 46. 95 

b . 自由度为19 x 2 0. 025 — 32. 852 3和 x 2 o.975 = 


n 
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8. 906 55 

19(25) 
32. 852 3 


矣 <7 2 彡 


19(25) 
8. 906 55 


第12章 


14. 46矣 cr 2 矣 53. 33 
c . 3. 3 

9. Ho : ( J 2 ^0. 000 4 
H a - a 2 > 0. 000 4 


n = 30 

^0.05 =42. 556 9(29 自由度） 
(29)(0. 000 5) 


X 


0. 000 4 


= 36. 25 


1. 期望 频数： e 〖=200(0.40) =80 

e 2 = 200(0. 40) =80 

63=200(0. 20) =40 

实际 频数 : /i = 60, / 2 = 120, / 3 = 20 

， （60-80) 2 (120-80) 2 (20 - 40) 2 

乂： 80 + 80 + 40 

400 1 600 400 

= ~80^ + 80 +_ 40" 


不拒绝//。:细致加工产品未超过标准 
15. 我们建议分子中用较大的样本 方差； 具有 

a = 0. 05, F 0 .025,20.24 = 2. 33:拒绝// 0 若 

F > 2. 33 


= 5 +20 + 10 = 35 

X 2 o . oi = 9.210 34,具有 / c -1 =3-1=2 自由 
度因为 x 2 = 35 > 9. 210 34,拒绝原 假设； 而总 
体比例与原假设不同 


F = |^ = 2.05; 不拒绝 i/o 
或者，我们采用左侧 F 值， 

Fq . 025,20, 24 — = ~~ ~/TZ = 0. 41 

^0.025,24,20 Z . 今0 

4 0 

F = 士 0.49 


3, Ho : pABC = 0. 29, pCBS = 0. 28, pNBC = 0. 25, pIND = 
0.18 

H u ： 比例不是 

Pabc = 0. 29, pcbs = 0. 28, pnbc = 0. 25, pim =0. 18 
期望频数 :300(0.29) =87 300(0. 28) =84 
300(0. 25) =75 300(0. 18) =54 
e \ - 87, ei = 84, =75, =54 


F > 0. 41; 不拒绝 //o 

17. a . 令 ：< r ? = 修理成本方差 (4 年的汽车） 

0*1 = 修理成本方差 (2 年的汽车） 

Hq : 0 * 1 ^ (72 
H a - cti >al 

b . 5 f = (170) 2 =28 900 

心 （100) 2 = 10 000 

^_ 28 900 _ 

々 "* 10 000 

Fo ■ 01 ， 24, 24 = 2 . 66 

拒绝执;得出 4 年的汽车的年平均修理费高 
于2年汽车的平均修理费的 结论； 得出这一 
结论是由于较旧的汽车更有可能花昂贵的修 
理费，因而导致更大的年均修理费方差 


实际频数:/ = 95, / 2 = 70, / 3 = 89, / 4 = 46 

X 2 o.o5=7.81(3 自由度） 

， （95 - 87) 2 (70-84) 2 (89 _75) 2 

x = 87 + 84 + 75 


(46 - 54) 2 
54 — 


= 6. 87 


不拒绝//。;在观众比例中无显著变化 
9. 队:列变量独立于行变量 
H a ' 列变量与行变量不独立 
期望频数： 

ABC 
P 28. 5 39.9 45.6 

Q 21.5 30.1 34.4 

，(20-28.5) 2 (44 - 39.9 ) 2 (5 Q -46.5) 2 

x = ~28?5 + 39.9 + 45.6 
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(30-2 L 5) 2 (26-30. I ) 2 (30-34. 4 ) 2 ， (6. 300 ) 2 (一 12.516) 2 (2. 364) 2 

—"2 L 5 + ~ 30 A + ~ 34 A X = 32.700 + 42.516 + 27. 636 


= 7.86 

X 2 o.o2 5 =7.377 76, (2- 1)(3 -1) =2自由度 
因为 x 2 =7.86>7.377 76, 拒绝 队； 即得出行 


(6. 024) 2 
11.976 


(-2. 160) 2 
5. 160 


= 9. 034 8 


X 2 0.05 =7. 814 73具有5 - 1 - 1 = 3的自由度 


变量与列变量不独立的结论 因为 X 2 = 9. 034 8>7. 814 73,拒绝乐;即得出 

11. ft : 购票种类独立于航班类别 数据不服从泊松概率分布的结论。 

i / a: 购票种类与航班类别不独立 21. 71 = 30我们将按161%的概率分为6 组； 每 

期望 频数： 组具有 


en = 35. 59 

612 = 

15.41 


e 2 i = 150. 73 

€22 = 

65.27 


€ 3 \ = 455. 68 

€32 = 

197. 32 


机票 

一等舱 

航班 

国内 

观测频数期望频数 

(/) U) 

29 35. 59 

(/■ - 。) 2 / 

1.22 

一等舱 

国际 

22 

15.41 

2. 82 

商务舱 

国内 

95 

150. 73 

20.61 

商务舱 

国际 

121 

65.27 

47.59 

全价经济舱 

国内 

518 

455. 68 

8. 52 

全价经济舱 

国际 

135 

197. 32 

19. 68 

总计 


920 


100. 43 


X 2 o . o 5=5.99 具有 （3 - 1)(2 - 1) =2自由度 
因为100.43>5.99拒绝 // Q; 机票类型与航 
班类别不独立 

20. 首先利用样本数据估计(样本容量 = 120) 
0(39) + 1(30)+2(30)+3(18) +4(3) 

終 = 120 

一 ■一 1 3 
- 120 

因此，我们用 / x =1.3 的泊松概率计算期望 
频数 


JC 观测频数泊松概率期望频数差异 (/-&) 


0 

39 

0. 272 5 

32. 700 

6. 300 

1 

30 

0. 354 3 

42. 516 

- 12, 516 

2 

30 

0, 230 3 

27.636 

2. 364 

3 

18 

0. 099 8 

11.976 

6. 024 


无 =22. 80, 5 = 6. 266 5 

分成6个区间的 z 值，每个具有概率是 
0. 166 7, -0. 98, -0. 43,0, 0. 43,0. 98 0 


z 

-0.98 
一 0.43 
0 

0.43 

0.98 

区间 

小于 16. 66 
16.66 —20. 11 
20. 11—22.80 
22. 80—25. 49 
25.49—28.94 
28.94 及以上 


jc 的截止值 

22.8-0. 98(6. 266 5) =16,66 
22. 8-0.43(6. 266 5) =20. 11 
22.8+0. 00(6. 266 5) =22.80 
22.8 +0, 43(6. 266 5) =25.49 
22. 8+0. 98(6. 266 5) = 28. 94 


观测频数期望频数 


3 

7 

5 

7 

3 

5 


5 

5 

5 

5 

5 

5 


差异 

-2 

2 

0 

2 

-2 

0 


竽 + 竿 + 竽+1^1 


+n 3 _ 20 


X 2 o.o2 5 =9. 348 40具有6 -2 - 1 =3自由度 
因为 x 2 = 3. 20彡 9. 348 40,不拒绝从； 

数据来自正态总体的声明不能被拒绝 


多 4 


3 


0. 043 0 


5. 160 


-2. 160 
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第13章 

1. a . 笑 =(30 + 45 + 36)/3 =37 

k 

SSTR = X %(王广完户 

= 5(30 - 37) 2 + 5(45 -37) 2 +5(36 -37) 2 
= 570 


MSTR = 


SSTR 

k -1 


570 


= 285 


k 

b . SSE = - 1 )sf 

j=i 

= 4(6) +4(4) +4(6.5) =66 


MSE = 


SSE 66 
riT-k = 15-3 



k 

SSE = XU — 1 )# 

y=i 

= 3(6.67) +3(4.67) +3(3. 33) =44.01 


MSE = 


SSE 44.01 
tit 一 k 一 12~3 


= 4.89 


F = 


MSTR 52 


MSE _4. 89 


=10. 63 


Fq.qs =4. 26(2 分子自由度和 9 分母自由度） 
因为 F = 10.63> 凡. 05 =：4,26,我们拒绝对每 
一厂商来说混合一批原材料所需时间相等这 
一原假设 

11. a . LSD = tan a/MSE (— 

\ V rii rij J 

= “ V 5 * 5 ( i + i ) 


c. 




MSTR 285 
MSE = T ? 


= 5 L 82 


Fo.o5=3. 89( 分子自由度为 2 和分母自由 
度为 12) 


因为 F = 51.82> F 0 . 05 = 3.89, 我们拒绝 
意味着三个总体的均值相等的原假设 


d . 


方差来源 

平方和 

自由度 

均方差 

F 

Treatments 

570 

2 

285 

51.82 

Error 

66 

12 

5.5 


总计 

636 

14 




生产商生产商 生产商 

12 3 

样本均值 23 28 21 

样本方差 6.67 4. 67 3.33 


宝 =(23 +28 +21)/3 =24 

k 

SSTR = 






4(23 - 24) 2 + 4(28 — 24) 2 + 4(21 — 24) 2 



MSTR 


SSTR 
A ： _ 1 


104 

2 


= 52 


= 2. 179 >02 =3.23 
U- 石 1 = |30-45| =15>LSD; 显著差异 

l^i ~^ 3 1 = I 30 - 361 =6>LSD; 显著差异 
|元2 -无 3 1 = 1 45 - 36 1 =9>LSD； 显著差异 

b. x\^X 2 ± t a n a/MSE (— + —) 

V \ rii n 2 / 

(30-45) ±2. 179^5.5(^^) 

-15 ±3. 23= - 18. 23 到 -11.77 

13. LSD = t a /2 a/MSE (— + —] 

V \ ni 713 / 

=^.025 V 4 - 89 (~4 + Jr) 

= 2. 262 Vl45 = 3. 54 

因为 I 无 i 一心 I = 1 23 - 21 I =2<3.54,在总 
体 1 和 3 的均值之间不存在任何显著差异 

14. xi -X2± LSD 
23 -28 ±3. 54 

一5 ±3. 54= - 8. 54到 一 1.46 
19. a. 5 = (156 + 142 + 134)/3 = 144 

k 

SSTR= ^rijixj-^) 2 
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=6(156 - 144) 2 +6(142 - 144) 2 + 6(134 - 144) 2 步骤 2 


= 1488 

b. MSTR=f^=-^ 


= 744 


c . 5? = 164, 4, si = 131, 2, 53 = 110. 4 

k 

SSE=SU-1W 

；=i 

= 5(164.4) +5(131.2) +5(110.4) 
= 2030 




SSE 2 030 
riT~k 18~3 


=135. 3 


e . 


MSTR 744 
= —MSE = 135.3 



50 


Fo.os = 3 . 68( 分子自由度 2 和分母自由度 15) 
因为尸= 5.50> 心。 5 = 3.68,我们拒绝三个处 
理均值是相等的这一原假设 

34. 处理均值 

X. I = 13. 6, 3 c . 2 = 11 . 0, x. 3 = 10. 6 
组内均值 

xi . = 9, % i . =7.67，= 15. 67,元4，=18.67， 

^5. = 7. 67 

总均值 

3 = 176/15 = 11，73 
步骤1 


SSTR =6 Z U . 厂完 ) 2 

j 

= 5[(13.6-11.73) 2 + (11.0 -11.73) 2 
+ (10.6~11.73) 2 ] = 26. 53 

步骤 3 

SSBL = k X . ( id . -；) 2 

J 

= 3[(9 - 11. 73) 2 + (7.67 - 11.73) 2 + 

(15. 67 - 11. 73) 2 + (18. 67 - 11. 73) 2 + 
(7. 67 - 11.73) 2 ] =312.32 
步骤 4 

SSE = SST - SSTR - SSBL 

= 354. 93 — 26. 53 -312. 32 = 16. 08 


方差来源 

平方和 

自由度 

均方差 

F 

处理 

26. 53 

2 

13.27 

6. 60 

区组 

312.32 

4 

78.08 


误差 

16. 08 

8 

2.01 


总计 

354. 93 

14 




^0.05 =4. 46( 分子自由度 2 和分母自由度 8) 
因为 F = 6. 60 > Fo.os =4. 46,我们拒绝三个 
处理均值相等的原假设 
41. 见表 E 13.41 


SST = 

* j 

= (10 - 11. 73) 2 + (9 - 11. 73) 2 + …+ 
(8 - 11.73) 2 
= 354. 93 


步骤1 

SST = j ) 2 

i j * 

■ =(135 - 111) 2 +(165 — 111)2 + … + 

(136 - 111) 2 =9 028 


表 E 13.41 


因子 A 


水平1 


水平2 


因子 B 

水平1 

水平2 

水平3 

3 c it = 150 

^,2=78 

^ 13 = 84 

^ 21 = 110 

X 22 = 116 

x 23 = 128 

无 • 1 = 130 

X. 2 =91 

元 3 = 106 


因子 A 均值 
x = 104 

xi . =118 


因子 B 均值 


x =111 
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步骤2 

SSA = br X (xi. -5) 2 

i 

= 3(2) [(104-111) 2 + (118-111) 2 ] =588 
步骤 3 

SSB = ar X (x.j-W 

j 

=2(2)[(130- lll ) 2 + (97- lll ) 2 + 1 
(106-111) 2 ] =2328 

娜 4 

SSAB = rX E y -Xi. - x. j +x) 2 

i j 

= 2[(150 - 104 - 130 + 111) 2 
+ (78 -104-97 + 111) 2 + ." 

+ (128 - 118 _ 106 + 111) 2 ] =4 392 

步骤 5 

SSE = SST - SSA- SSB- SSAB 



9028 - 588 

-2 328-4 392 = 1 720 


方差来源 

平方和 

自由度 

均方差 

F 

因子 A 

588 

1 

588 

2.05 

因子 B 

2 328 

2 

1 164 

4.06 

交互作用 

4 392 

2 

2 196 

7.66 

误差 

1 720 

6 

286. 67 


总计 

9 028 

11 




b . 在 x 和 y 之间存在线性相关关系 

c . 可画出多条不同的直线作为 x 和 y 之间 
相关关系的线性 近似; 在 ( d ) 中我们确定一 
条按最小二乘标准最能代表相关关系的一 
条直线方程 

d . 共需计算出斜率和 y 的 截距： 

X ^ = 15, Z Ji - 40, ^{ xi - x ){ yi - y ) =26, 


2(^-^) 2 = 10 
, Z ixi-x){yi-y) 

bl= Kx^xy 


= 卷 =2 . 6 


bo~y - bix — S - (2. 6) (3) =0. 2 

e . y = 0. 2 - 2. 6 a ; 

y = 0. 2 + 2. 6 a ; = 0, 2 + 2. 6(4) = 10. 6 


J 


140 

130 

120 

110 

100 



60 62 64 66 68 70 


x 


4. a . 


Height 


F 0 . o 5=5. 99( 分子自由度 1 和分母自由度 6) 
^0.05=5. 14( 分子自由度2和分母自由度 6) 
因为 F = 2.05 < /^,。5 =5. 99,因子 A 不显著; 
因为广= 4. 06 < F 。. 。5 = 5, 14,因子 B 不显著; 
因为 F = 7.66 > Fo.qs = 5. 14,相互作用显著。 

第14章 


y 



b . 它表明变量之间可能存在线性相关关系 
C. 可画出多条不同的直线作为％和 y 之间 
关系的线性 近似; 在 ( d ) 中我们将按最小二 
乘法定出“最”能代表它们之间关系的一条 
直线方程 

d , 共需计算出斜率和 y 的 截距： 

S Xi = 325, z Ji = 585, Z(xi-x)(yi-y) 

=110, X ( Xi —3 c ) 2 = 20 

, ' Z ( x i - x )( r l - 7 y ) 110 ^ e 

b ' = ZU -疗 = ^0~ = 5 - 5 

6 o = r - h 元 = 117-(5. 5)(65) = - 240. 5 
e> y = - 240. 5+5.5% 
r = -240.5 +5.5(63) =106 
重量的估计是 106 镑 
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Xi 

yt 



(力一炎 ) 2 

A - J 

( yr - y ) 

1 

3 

2,8 

0.2 

0.04 

- 5 

25 

2 

7 

5.4 

1.6 

2,56 

- 1 

1 

3 

5 

8.0 

-3.0 

9.00 

-3 

9 

4 

11 

10.6 

0.4 

0. 16 

3 

9 

5 

14 

13.2 

0.8 

0.64 

6 

36 




SSE 

=12. 40 


SST = 80 


SSR 

= SST 

-SSE = 

80 - 1 Z 4 = 

67.6 



15* a . f i = ()• 2 + 2. 6 々和歹 = 8 


b. 


SSR _ 67. 6 
SST = 80 


= 0. 845 


F 二 


MSR 67.6 


MSE - 4. 133 


=16. 36 


Fo.05 = 10. 13( 分子自由度 1 和分母自由 

度 3) 

因为 F = 16. 36>Fo o5 = 10. 13, 

拒绝 ft : A=o 


方差来源 

平方和 

自由度 

均方差 F 

回归 

67.6 

1 

67.6 16. 36 

误差 

12.4 

3 

4. 133 

总计 

80 

4 



最小二乘直线的拟合 度好； 变量 y 中的 
84. 5%可由最小二乘直线解释 


26. a . 5 2 = MSE = 21 283.79 

n-2 4 


c . r = VO . 845 = +0.919 2 
18. a . 估计回归方程和因变量的均 值为: 


5= >/ MSE = V21 283. 79 = 145. 89 
Z(^-^) 2 = 0. 74 


y = 1790.5+581. lx , y = 3 650 
由误差引起的平方和和总平方和: 


Sb , = 


S 


H(Xi - 况 ) 2 


_ 145, 89 
_ V6?74 


169. 59 


SSE = ： Z ( p - f) 2 = 85 135. 14 
SST = Z ( j t - y) 2 = 335 000 
于是 ， SSR = SST_SSE 

= 335 000 - 85 135. 14 = 249 864. 86 


b\ ~ 0] 581. 08 - 0 


Sb, 


169. 59 


= 3.43 


tQ.Q25 = 2. 776(4 自由度） 

因为匕3.43>以02 5 = 2.776，拒绝 ffi :/3,=0 


b . r 2 = 


SSR 249 864. 86 
SST = 335 000 


= 0. 746 


b. MSR= 罕 


= 249 864. 86 


最小二乘直线计算出总平方的 74. 6% 

c . r = VO . 746 =十 0.863 7 

SSF 19 4 

23. a . 5 2 = MSE = -^ r= J ^ iL = 4. 133 

n -2 i 


b. 5= VMSE = KU 3 = 2. 033 

c . Xi — x ) 2 — 10 


Si ,= 


s 


2. 033 


>TS - X ) 2 yflQ 




= 0. 643 


d. 




2 . 6 - 0 

0.643 


= 4.04 


fo . 025 == 3.182(3 自由度） 

因为 t =4. 04> fo . o 5 = 3. 182,拒绝 ft ): =0 

e . MSR =平 = 67. 6 


MSR 249 864.86 
P = MSE = 21 283.79 

Fo.o 5 =7.71( 分子自由度 1' 和分母自由 

度 4) 

因为 F = 11.74>Fo.o 5 =7.71,Jg^ %/3.=0 


C. 

方差来源 

平方和 

自由度 

均方差 

F 

回归 

29 864. 86 

1 

29 864. 86 

11.74 

误差 

85 135. 14 

4 

21 283. 79 


总计 

335 000 

5 




32. a . 5 = 2. 033 

^ = 3, X ( - x ) 2 = 10 
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= 161. 19 

A 

土 icr/2Smd 

2 033,78 ±2. 776(161. 19) 

2 033. 78 士 447. 46,或 1 586. 32美元一 
2 481. 24美元 


s r v 




l(xi-x) 2 


- 2. 033 


Y5 


(4-3): 

10 


= 1 . 11 


b. y = 0. 2 + 2. 6 a ; = 0. 2 + 2. 6(4) = 10. 6 

yp 士 ^a/2Sj f 

10. 6 ±3. 182(1. 11) 

10. 6 ±3. 53,或 7. 07—14. 13 


C. Sin6 = S \ l +——+ 


-幻 2 
n S (xi^x ) 2 




2. 033 a 1 + 


(4^3T 

10 


= 2. 32 


d. y p ± £a^2Sind 

10. 6 ±3.182(2. 32) 

10. 6 ±7. 38,或 3. 22—17. 98 
35, a. <s = 145. 89,3c = 3. 2, Z (~ x ) 2 = 0. 74 

r = 290. 54+581. 08^=290. 54+581. 08(3) 
=2 033.78 


- 士德 


1 (3-3 2) 2 

= 145.89 \ l ~^ + v ■ - Q ~ L =68. 54 


y p 士 ta/2Sy r 

2 033. 78 ±2. 776(68.54) 

2 033. 78 ± 190. 27,或 1 843. 51 美元一 
2 224. 05 美元 

b. r = 290.54+581. 08 a : =290. 54 + 581. 08(3) 
= 2 033.78 


__ , 1 , (x D -xr 

5ind = 5 V 1 T ZU-3c) 2 


二 145 . 89 


40. a. 9 

b. y = 20. 0 + 7. 21 ac 

c. 1. 362 6 

d. SSE= SST - SSR = 51 984. 1 -41 587.3 

=10 396.8 

MSE = 10 396. 8/7 = 1485. 3 
MSR 41 587.3 


F = 


MSE _ 1 485.3 




28.0 


Fo.o5 = 5. 59( 分子自由度 1 和分母自由 
度 7) 

因为尸 =28>F 0 05 =5.59, 拒绝 执 ••戽=0 
e. y = 20.0+7.21 (50) = 380. 5,或 
380 500美元 

45. a. Z Xi = 14, X = 76, X(xi - x ) (yi ~ y ) 

= 200, Z ( 欠 i - 无 ) 2 = 126 

7 Z (iVi ~3c)(y,- - y) 1 200 

bl= ZU-3c) 2 = T26 


= 1.587 3 


fco=y- fh 无 = 15. 2 - （1.587 3) (14) 
=-7. 022 2 
y= -7.02 + 1.59^; 


b. 


Xi 

yt 

yi 

yi-yi 

6 

6 

2. 52 

3.48 

11 

8 

10, 47 

-2. 47 

15 

12 

16. 83 

-4.83 

18 

20 

21.60 

一 1. 60 

20 

30 

24. 78 

5.22 


c. 


y-y 

5 
4 
3 
2 












25 


20 


12 3 4 5 

----- 
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由于只有 5 个观测值，很难确定假设是否 
成立； 然而，这些点确定表明残差中的曲 
线关系，进而说明误差项假设不能 满足; 
这些数据的散点图也指出％和 y 之间最 
可能的关系是曲线相关 
d. 5 2 = 23. 78 


y-y 
10 - 

0 - 

-10 - 



(xi -x ) 2 
l(xi-x ) 2 





30 40 



50 60 


y 


l U-14) 2 

= T + 126 

Xl Hi Sy, -y, 

6 0. 707 9 2. 64 

11 0. 271 4 4. 16 

15 0.207 9 4.34 

18 0.327 0 4.00 

20 0. 485 7 3. 50 


yi - yt 

标准残差 

3. 48 

1.32 

-2.47 

-0. 59 

-4.83 

-1. 11 

- 1.60 

-0. 40 

5. 22 

1,49 


e . 对应: f 的标准残差的点与初始的残差的点 
相同； 如 （ c ) 中所述观测到的曲线表明对 


误差项的假设可能不会满足 
47. a. 令％ =广告支出，7 =收入 
7 = 29.4 + 1.55^ 

b. SST = 1 002, SSE = 310. 28, SSR = 691.72 


MSR = 


SSR 


= 691.72 


d . 散点图让我 们对％ 和 y 之间线性关系的 
假设产生 疑问； 在 a =0.05 水平上相关关 
系似乎是显著的，超出数据极差进行推断 
可能是很不确切的 

50. a. 利用 Minitab 软件，可得到估计回归方程 
y = 66. 1 +0. 402 3 x ; —^分 Minitab 的输出 
结果如图 E14. 50 所示； 拟合值和标准残差 
如下： 


Xi 

yt 

a 

标准残差 

135 

145 

120,41 

2. 11 

110 

100 

110. 35 

- 1, 08 

130 

120 

118.40 

0. 14 

145 

120 

124.43 

— 0. 38 

175 

130 

136. 50 

-0. 78 

160 

130 

130.47 

- 0.04 

120 

110 

114.38 

-0.41 


SSE 310. 28 ,一… 

MSE =- r- = - z = 62. 055 4 

n - 2 5 

座- 691.1 
r _MSE 一 62. 0554 _1A * 1:5 


Fo. 05 =6. 61( 分子自由度 1 和分母自由度 
5) 因为 F = ll . 15> F 0 . 05 =6.61, 可得出两 


个变量相关的结论 


Xi 


yi = 29. 40 + 1. 55 xi 

yi-yt 

1 

19 

30.95 

- 11. 95 

2 

32 

32. 50 

-0.50 

4 

44 

35.60 

8. 40 

6 

40 

38. 70 

1.30 

10 

52 

44.90 

7. 10 

14 

53 

51. 10 

1.90 

20 

54 

60.40 

-6.40 


b. 


标准残差 

2.5 - 
2 . 0 - 



105 


110 115 120 125 130 135 140 


标准残差点显示观测值 x = \ 35 , y = 145 
可能是异 常值； 注意，这一观测值有一 
标准残差 2. 11 
c . 散点图 如下： 
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y 


150 

140 

130 

120 

110 

100 


h • 




參 










100 110 120 130 140 150 160 170 180 


x 


散点图显示观测值^ = 135, r = 145 可能是异 
常值； 其含义是对简单的线性回归异常值可由 
散点图识别出 

52. a . —部分 Minitab 的输出结果如图 E 14. 52所 
示 

b . Minitab 将观测值1定为有大的标准残差的 
值； 因而,我们可视其为异常值 


图 E14. 50 

The regression equation is 
Y = 66.1 + 0,402 X 


Predictor 

Coef 

Stdev 

t-ratio 

P 

Constant 

66.10 

32.06 

2.06 

0.094 

X 

0.4023 

0.2276 

1.77 

0.137 

s ~ 12.62 

R-sq 

= 38.5% 

R-sq(adj)= 

26.1% 

Analysis of 

Variance 




SOURCE 

DF 

SS 

MS 

F p 

Regression 

1 

497.2 

497.2 

3.12 0.137 

Error 

5 

795.7 

159.1 


Total 

6 

1292.9 




Unusual Observations 

Obs. X Y Pit Stdev.Fit Residual St .Resid 

1 135 145.00 120.42 4.87 24.58 2. HR 


图 E14, 52 

The regression equation is 
Shipment = 4.09 + 0.196 Media$ 


Predictor 

Coef 

StDev 


T P 


Constant 

4.089 

2.168 


1.89 0.096 


Media$ 

0.19552 

0.03635 


5.38 0.000 


S = 5.044 

R-Sq 

= 78.3% 

R-Sq(adj) « 75.6% 


Analysis of 

Variance 





Source 

DF 

SS 

MS 

F 

P 

Regression 

1 

8 

735.84 

735.84 

28.93 

0.000 

Error 

203.51 

25.44 



Total 

9 

939.35 





Unusual Observations 

Obs Media$ Shipment Fit StDev Fit Residual St Resid 

1 120 36.30 27.55 3.30 8.75 2.30R 

R denotes an observation with a large standardized residual 
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第15章 

2. a . 估计回归方程是 y = 45. 06 + 1. 94心 
y 的一个估计，当 a = 45时是 
7 = 45.06 + 1.94(45) = 132. 36 

b . 估计回归方程《 = 85. 22 + 4. 32跑 
当& = 15时的估计值是 

7 = 85.22 + 4. 32(15) =150. 02 

c . 估计回归方程是 

y = —18. 37 +2. 01 +4. 74 

当 a =45和15时: k 的一个估计是 
7= -18. 37+2. 01(45)+4. 74(15) = 143. 18 
5. a . Minitab 的输出结果如图 E 15. 5 a 所示 


b . Minitab 的输出结果如图 E 15. 5 b 所不 

c . 在 ( a ) 中系数是1.60, ⑹中是 2. 29;在 ( a ) 中 
系数是根据一单位电视广告支出的变化对收入 

进行的 估计; 而在 ( b ) 中系数代表了根据在报 
纸广告保持不变时，电视广告支出变化一单位 
所引起收入变化的估计 


d 收入 =83. 2 + 2. 29(3. 5) + L 30(1. 8) =93.56 
或93 560美元 


12 . a . /?= 


SSR 14 052.2 
SST = 15 182.9 


= 0. 926 


b . 祀=1-(1-/?) 


/I 一 1 

n — p — 1 


10-1 

= 1 -( 1 - 0 . 926 )^^ = 0.905 


图 E15. 5a 







The regression equation is 





Revenue = 88 

.6 + 1.60 

TVAdv 





Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

88.638 

1.582 

56. 

02 

0.000 


TVT^iv 

1.6039 

0.4778 

3. 

36 

0.015 


S = 1.215 

R-sq 

= 65.3% 

R-sq(adj) 

= 

59.5% 


Analysis of 

Variance 






SOURCE 

DF 

SS 

MS 


F 

P 

Regression 

1 

16.640 

16.640 


11.27 0, 

.015 

Error 

6 

8.860 

1.477 




Total 

7 

25.500 






图 E15. 5b 

The regression equation is 

Revenue = 83.2 + 2.29 TVAdv + 1.30 NewsAdv 


Predictor 

Coef 

Stdev 

t-ratio 

P 

Constant 

83.230 

1.574 

52.88 

0.000 

TVAdv 

2.2902 

0.3041 

7.53 

0.001 

NewsAdv 

1.3010 

0.3207 

4.06 

0.010 

s = 0.6426 

R-sq = 

: 91.9% 1 

R-sq(adj)= 

88.7% 

Analysis of 

Variance 




SOURCE 

DF 

SS 

MS 

F p 

Regression 

2 

5 

23.435 

11.718 

28.38 0.002 

Error 

2.065 

0.413 


Total 

7 

25.500 
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c . 是的； 在修正于模型中独立变量的数目之 
后，我们可看到7中 90. 5%的变异性已 
得到解释 

广 SSR 23.435 n Q1Q 

15. a . R 2 ^ =0. 919 


SST 25.5 


m = r 2 ) 


71 - 1 


n - p - 1 


- (1 一 0.919) 


-1 


8 - 2-1 


= 0. 887 


b . 可按受多元回归结果，因为和珩两者 

都显 示出： 当用到两个相互独立的变量时， 

解释变量 y 的变异性的百分比在增加 

10 SSR 6 216. 375 ^ 1AO 

19. a . MSR = - = - ^ - = 3 108. 188 


MSE = 


2 

_ 507,75 

n — p — 1 10 一 2 一 


P 

SSE 


= 72. 536 


,p MSR 3 108. 188 

b. r = 二 i 作严 a/~ = 42. 


MSE 


72. 536 


c. 


^0.05=4. 74( 分子自由度 2 和分母自由度 7) 
因为 F = 42. 85>Fo.os=4. 74, 总模型是显 
著的 

fei__ 0. 590 ^, _ 
s bt ~ 0.081 3 " Z0 

to. 025 = 2. 365( 自由度 7) 

由于 t=l. 26> fo.025 =2. 365, 是显著的 
0.498 0 

d * “ 叫 - 0. 056 7 _ & 78 

由于 i = 8. 78 > fo.025 =2. 365, 是显著的 

23. a . F = 28.38 

Fo.oi = 13. 27( 分子自由度 2 和分母自由 
度 1) 

因为 = 13. 27, 拒绝执 

另一种情况，值是 0 . 002导出同数的 

结论 

b . i =7.53 
t0.025 =2. 571 

因为 t > io . o 25 = 2. 571, /3 i 是显著的，:不 


应从模型中剔除 
c . i = 4. 06 
io . 025 =2. 571 

因为 Z > ia 。25 = 2. 571，是显著的，不 
应从模型中剔除 

28. a •利用 Minitab 软件，95%置信区间是 

132. 16到 154. 15 

b . 利用 Minitab 软件，95%预测区间是 
111. 15到 175. 17 

29. a . 见图 E 15. 5 b 中 Minitab 的输出结果 

7 = 83.230+2. 290 2(3.5)+1.301 0(1.8) 
= 93. 588或93 588美元 

b . 利用 Minitab 软件: 92. 840—94. 335，或92 
840美兀_94 335美兀 

c . 利用 Minitab 软件： 91. 774 —95. 401，或 
91 774美元一95 401美元 

32. a . E ( y ) = /3 o + /3 iXi + J 3 zX 2 

0 若水平 1 
. 1 若水平 2 

b . E ( y ) = /3o + p\Xi + ) 82 ( 0 ) = /3 o + /3 i xi 

c . 五( y ) = )80 +/3 i a + 择( 1 ) = 沐 +/3 i a + )82 

d . /32 = £(y I 水平 2 )- E (: k I 水平 1 ) 

/3, 是当&保持不变 ^ 不变 1 单位时， 
五 （ y ) 所发生的变化 
34. a . 15 300美元，因为 63 = 15.3 

b . y = 10. 1 -4.2(2) + 6 . 8 ( 8 ) +15.3(0) 

= 10. 1-8.4+54.4 
= 56. 1 

销售预测：56 100美元 

c . y = 10. 1 -4.2(1) +6.8(3) +15.3(1) 

= 10. 1 -4.2+20.4 + 15.3 
= 41.6 

销售预测 ：41 600美元 
39. a . Minitab 的输出结果如图 E 15. 39所示 
b . 利用 Minitab 软件，我们得出下 列值： 


式中无2 = 
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Xi 


yi 

yt 

标准残差 

1 


3 

2.8 

0. 16 

2 


7 

5.4 

0. 94 

3 


5 

8,0 

-1.65 

4 


11 

10.6 

0.24 

5 


14 

13.2 

0. 62 

标准残差 




1.0 

一 

• 



0.5 

0.0 


• 

• 

• 

-0.5 

— 




-1.0 

— 




-1.5 

-2.0 

( 

一 

1 1 

• 

I 

1 1 

〕 

3 6 

9 

12 15 


点（3,5)不符合其他点的 趋势； 然而，这一 

点的标准残差，- 

1.65,并不大到足以让 

我们得出该点是异常值这一结论 

利用 Minitab , 我们得岀下 列值： 


按学生分布 

x 1 y i 

删除残差 

1 3 

0. 13 

2 7 

0. 92 

3 5 

-4.42 

4 11 

0. 19 

5 14 

0.54 


to . 025 = 4. 303 (n — /? — 2 = 5 — 1 —2 = 2 自由度) 
因为按学生分布删除异常值，对点（3,5) 
来说是 - 4. 42< - 4. 303,我们就可得出第 
3个观测值是异常值的结论 


图 E15. 39 


The regression equation is 
Y = 0.20 + 2.60 X 


Predictor Coef 
Constant 0.200 
X 2.6000 


Stdev t-ratio p 
2.132 0.09 0.931 
0.6429 4.04 0.027 


s « 2.033 R-sq = 84.5% 


Analysis of Variance 
SOURCE DF SS 

Regression 1 67.600 

Error 3 12.400 

Total 4 80.000 


R-sq(adj) = 79.3% 


MS F p 

67.600 16.35 0.027 

4.133 


41. a . Minitab 的输出结果如图 E 15. 5 b 所示；估 
计回归方程是 

Revenue =83. 2+2. 29 TVAdv +1 .30 NewsAdv 
b . 利用 Minitab , 我们得到下 列值： 


yi 

标准残差 

yi 

标准残差 

96. 63 

-1.62 

94. 39 

1. 10 

90.41 

-1.08 

94. 24 

-0. 40 

94.34 

1.22 

94. 42 

-1. 12 

92.21 

-0. 37 

93.35 

1.08 


标准残差 



y 


由于观测值相对 太少； 很难确定关于 e 的任 
何假设已 背离； 例如，既可得出这些点不存在 


1042 商务与经济统计 


任何关系的结论，也可得出这些点是曲线 
相关的结论 

c , 标准残差值大于_2和小于+2;那么利用 
这一检验，没有异常值 
进一步检测异常值，我们用 Minitab 软件 
计算出按学生分布删除的残差如下： 


观测值 

按学生分布 
删除残差 

观测值 

按学生分布 
删除残差 

1 

-2. 11 

5 

1. 13 

2 

-1. 10 

6 

- 0. 36. 

3 

1.31 

7 

-1. 16 

4 

-0.33 

8 

1. 10 


fo . 025 =2. 776 (n — p —2 = 8—2 — 2 = 4自由度) 
因为没有一个按学生分布删除的残差小 
于- 2. 776或大于 2. 776,我们得出数据 
中没有异常值的结果论 
d . 利用 Minitab ， 我们得出下 列值： 


观测值 

h 

Di 

1 

0. 63 

1.52 

2 

0. 65 

0.70 

3 

0. 30 

0.22 

4 

0. 23 

0.01 

5 

0. 26 

0. 14 

6 

0. 14 

0.01 

7 

0. 66 

0.81 

8 

0. 13 

0.06 


临界值是 

3 (p + l ) 3(2 + 1) 
^ _ 8 


因为没有一个值超过 1. 125,我们就可得 
出没有有影响的值的结论，然而，利用库 
克距离测度我们看到 A >1( 拇指临界值规 
则），那么，可得出第1个观测值是有影响 
的 

最终 结论: 观测值1是一个有影响的值 


第16章 

1. a . Minitab 的输出结果如图 E 16. la 所示 

b . = 6. 85的 p - 值是 0. 059 >a = 0. 05,因此相关性不显著 


图 E16. la 

The regression equation is 
Y=-6.8+1.23X 


Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

-6.77 

14.17 

-0.48 

0.658 


X 

1.2296 

0.4697 

2.62 

0.059 


s = 7.269 

R-sq 

= 63. 1% 

R-sq(adj)= 

53.9% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

362.13 

362.13 

6.85 

0.059 

Error 

4 . 

211.37 

52.84 



Total 

5 

573.50 
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C. 



20 25 30 35 40 


散点图表明曲线相关可能是合适的 


d . Minitab 的输出结果如图 E 16. Id 所示 

e . 相应于尸= 25. 68的值 /?- 值是0, 013 <a 
= 0. 05,因此相关性显著 

f . 7= - 168.88 + 12. 187(25) -0. 177 04 

(25) 2 =25. 145 

5. a . Minitab 的输出结果如图 E 16. 5 a 所示 

b . 相应于 F = 73.，15 的值 p - 值是 0.003< o : = 
0. 01，因此相关性 显著; 应该拒绝 

Ho : /3 i = = 0 

c . 见图 E 16.5 c 


图 E16. Id 

The regression equation is 


y = - 169 + 

12.2 X - 

0.177 XSQ 




Predictor 

Coef 

Stdev 

ratio 

P 


Constant 

-168.88 

39.79 

-4.74 

0.024 


X 

XSQ 

12.187 

2.663 

4.58 

0.020 


-0.17704 

0.04290 

-4.13 

0.026 


s = 3.248 

R-sq 

= 94.5% 

R-sq(adj)= 

90.8% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

2 

541.85 

270.92 

25.68 

0.013 

Error 

3 

31.65 

10.55 



Total 

5 

573.50 





图 E 16. 5 a 

The regression equation is 


Y = 433 + 37 

•4 X -0.383 XSQ 




Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

432.6 

141.2 

3.06 

0.055 


X 

XSQ 

37.429 

7.807 

4.79 

0.017 


-0.3829 

0.1036 

-3.70 

0.034 


s = 15.83 

R-sq 

= 98.0% 

R-sq(adj)= 

96.7% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

Error 

2 

3 

36643 

751 

18322 

250 

73.15 

0,003 

Total 

5 

37395 
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图 E16.5c 

Fit Stdev.Fit 95% C.I. 95% P.I. 

1302.01 9.93 (1270.41, 1333.61) (1242.55, 1361.47) 


11. a . SSE = 1 805 - 1 760=45 


MSR / 1 760/4 \ 
= MSE = l 45/25 ) 


= 244. 44 


F 0 .o5=2. 76( 分子自由度 4 和分母自由 


度 25) 


因为 244. 44>2. 76拒绝相关性显著 

b . SSE ( xi , X3 , xa ) =45 

c . SSEU 2 , 沿） =1 805 - 1 705 = 100 


d . 


F = 


(100-45 )/2 


= 15.28 


Fo . o5 = 3. 39 


因为 F = 15.28>3.39, x ，和 幻是显 著的 
12. a . Minitabr 的输出结果如图 El 6. 12 a 所示 
Minitab 的输出结果如图 El 6. 12 b 所示 


c . 后向删除法（见图 E 16. 16 c ) 

d . 最佳子集回归（见图 E 16. 16 d ) 

21. a . Minitab 的输岀结果如图 E 16.21 a 所示 

b . 将数据按顺序列出的函数的残差点 如下: 
未显示出任何正的负相关性 


3. 50 


残 

差 


0 . 00 - 2 
-3. 50- 


3 


4 




X 2 

0 

7 

9 5 


4 


9 


c . F = 

[ SSE (简化） - SSE (完全 ）]/(# 额外方式) 

MSE (完全） 

(23 157- 14 317)/2 
= f 432 =3 _ 09 


Fo. os = 4. 10( 分子自由度2和分母自由 
度 10) 

因为尸= 3.09<尸。.。 5 =4, 10,两个独立变 
量的可能性不显著 

注意： 假设我们考虑只将对手拦截的次数 

相加；相应的 Minitab 结果如图 E 16. 12 c 

所示； 在此情况下 

^ (23 157-14 335)/1 

F= f 303 =6 - 77 

Fo. 05 =4. 84( 分子自由度 1 和分母自由 


c . 杜宾-瓦特森统计（由 Minitab 得出）是 


d = 2, 34 ； 

在 c 

x = 0. 05, dh = 

1 * 18^ d\i = 

1.39; 因为，不存在显著的正负相关 

23. 

Xi 

Xz 

X 3 

处理 

0 

0 

0 

A 

1 

0 

0 

B 

0 

1 

0 

C 

0 

0 

1 

D 

E{y) 

26. a. 

= (io + / 3 [X\ + ^2X2 + ^3X3 

A 


Dt 

厂商 

0 


0 

1 

1 


0 

2 

0 


1 

3 

E(y) 

= ^80 + )3i Z)i + j02 D 2 



度 11) 

因为/^6.77>&。 5 =4.84,对手拦截次 
数相加结果是显著的 

16. a . Minitab 的输出结果如图 E 16. 16 a 所示 
b . 逐步回归（见图 E 16.16 b ) 


b . 见图 El 6. 26 b 

c. Ho : / 3 i = )82 = 0 

d . p - 值是 0. 004< a =0.05, 因此我们得出 
混合一批原材料的平均时间对每一个商 
来说并不相等的结果 
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图 £16.12a 

The regreission equation is 


Points = 170 

+ 6.61 Teamlnt 




Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

170.13 

44.02 

3.86 

0.002 


Teamlnt 

6.613 

2.258 

2.93 

0.013 


s = 43.93 

R-sq 

= 41.7% 

R-sq(adj)= 

: 36.8% 


Analysis of Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

16546 

16546 

8.57 

0.013 

Error 

12 

23157 

1930 



Total 

13 

39703 




Unusual Observations 





Obs. Teamlnt 

Points Fit 

Stdev.Fit 

Residual 

St.Resid 

13 33.0 

340. 

0 388.4 

34.2 

-48.4 

-1.75 : 


X denotes an obs. whose X value gives it large influence. 


图 E16.12b 

The regression equation is 

Points = 280 + 5.18 Teamlnt - 0.0037 Rushing - 3.92 Opponlnt 


Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

280.34 

81.42 

3.44 

0.006 


Teamlnt 

5.176 

2.073 

2.50 

0.032 


Rushing 

-0.00373 

0.03336 

-0.11 

0.913 


Opponlnt 

-3.918 

1.651 

-2.37 

0.039 


s = 37,84 

R-sq 

* 63.9% 

R-sq(adj)= 

53.1% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

3 

25386 

8462 

5.91 

0.014 

Error 

10 

14317 

1432 



Total 

13 

39703 




SOURCE 

DF 

SEQ SS 




Regression 

1 

16546 




Error 

1 

776 




Total 

1 

8064 
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图 E16.12c 

The regression equation is 


Points = 274 

+ 5.23 Teamlnt - 3.96 Opponlnt 



Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

273.77 

53.81 

5.09 

0.000 


Teamlnt 

5.227 

1.931 

2.71 

0.020 


Opponlnt 

-3.965 

1.524 

-2.60 

0.025 


s = 36.10 

R-sq 

= 63.9% 

R-sq(adj)= 

57.3% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

2 

25386 

12684 

9.73 

0.004 

Error 

11 

14335 

1303 



Total 

13 

39703 




SOURCE 

DF 

SEQ SS 




Teamlnt 

1 

16546 




Opponlnt 

1 

8822 





图 E16,16a 

The regression equation is 
%College = -26.6 + 0.0970 SATScore 


Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

-26.61 

37.22 

-0.72 

0.485 


SATScore 

0.09703 

0.03734 

2.60 

0.019 


s = 12.83 

R-sq = 

= 29.7% 

R-sq(adj)= 

25.3% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

1110.8 

1110.8 

6.75 

0.019 

Error 

16 

2632.3 

164.5 



Total 

17 

3743.1 





图 E16.16b 



STEP 

1 

2 

CONSTANT 

-26.61 

-26.93 

SATScore 

0.097 

0.084 

t-RATIO 

2.60 

2.46 

%TakeSAT 


0.204 

t-RATIO 


2.21 

s 

12.8 

11.5 

R-sq 

29.68 

46.93 
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图 E16.16c 

STEP 

CONSTANT 

1 

33.71 

2 

17.46 

3 

-32.47 

4 

-26.93 

Size 

t-RATIO 

-1.56 

-1.43 

-1.39 

-1.42 



Spending 

t-RATIO 

-0.0024 

-1.47 

-0.0026 

-1.75 

-0.0019 

-1.31 


Salary 

t-RATIO 

-0.00026 

-0.40 




SATScore 

t-RATIO 

0.077 

2.06 

0.081 

2.36 

0.095 

2,77 

0.084 

2.46 

%TakeSAT 

t-RATIO 

0.285 

2.47 

0.274 

2.53 

0.291 

2.60 

0.204 

2.21 

S 

R-sq 

11.2 

59.65 

10.9 

59.10 

11.2 

52.71 

11.5 

46.93 


图 E16.16d 


S S % 
p AT 
e S T a 







n 

a 

s 

k 





S 

d 

1 

c 

e 





i 

l 

• 

l 

a 

o 

S 



Adj . 


z 

n 

r 

r 

A 

Vars 

R-sq 

R-sq 

S 

e 

g 

y 

e 

T 

1 

29.7 

25.3 

12.826 




X 


1 

25.5 

20.8 

13.203 





X 

2 

46.9 

39.9 

11.508 




X 

X 

2 

38.2 

30.0 

12.417 

X 



X 


3 

52.7 

42.6 

11.244 


X 


X 

X 

3 

49.5 

38.7 

11.618 

X 



X 

X 

4 

59-1 

46.5 

10.852 

X 

X 


X 

X 

4 

52.8 

38.3 

11.660 


X 

X 

X 

X 

5 

59.6 

42.8 

11.219 

X 

X 

X 

X 

X 
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图 E16.21a 

The regression equation is 


P/E = 6.51 h 

- 0.569 % Profit 




Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

6.507 

1.509 

4.31 

0.000 


% Profit 

0.5691 

0.1281 

4.44 

0.000 


s = 2.580 

R-sq 

= 53.7% 

R-sq(adj) 

= 51.0% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

1 

131.40 

131.40 

19.74 

0.000 

Error 

17 

113.14 

6.66 



Total 

18 

244.54 





图 G16.26b 

The regression equation is 
Time = 23.0 + 5.00 D1 - 2.00 D2 


Predictor 

Coef 

Stdev 

t-ratio 

P 


Constant 

23.000 

1.106 

20.80 

0.000 


D1 

5.000 

1.563 

3.20 

0.011 


D2 

-2.000 

1.563 

-1.28 

0.233 


s = 2.211 

R-sq = 

70.3% 

R-sq(adj) - 

63.7% 


Analysis of 

Variance 





SOURCE 

DF 

SS 

MS 

F 

P 

Regression 

2 

104.000 

52.000 

10.64 

0.004 

Error 

9 

44.000 

4.889 



Total 

11 

148.000 





第 17 章 

1. a _ 项目 

A 

B 


14 625.00 
= 12 510.00 


(100) =117 


比价 


… 7.75(1 800)+1 500. 00(1) / 

d . 72001 = 7.50(1—800)+630.00(1) (100) 


103 = (7.75/7. 50)(100) 
238 = (1 500/630)(100) 


15 450. 00 
14—130.00 


(100) =109 



/： 


2001 一 


7.75 + 1 500. 00 f m 
7.50 + 630. 00 UUU；= 


1 507. 75 
637. 50 


3. a . 比价 A =(6.00/5. 45)100 = 110 
B = (5.95/5. 60)100 = 106 


(100) =237 


C = (6. 20/5.50)100 = 113 


r 7.75(1 500) + 1 500.00(2) 

C - 12001 = 7.50(1 500)+630.00(2) (100) 


b. I 


2001 


_ 6. 00 + 5. 95 + 6. 20 
= 5.45 +5. 60 + 5.50 


( 100 ) = 110 
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C. 72001= 


6.00(150)+5.95(200)+6.20(120) 15. I 


5.45(150)+5.60(200) +5. 50(120) 


(100) =109 
在两年期间速增9% 


商品项目 

比价 

价格 

用途 

重量 

加权比价 

A 

150 

22. 00 

20 

440 

66 000 

B 

90 

5.00 

50 

250 

22 500 

C 

120 

14.00 

40 

560 

67 200 




总计 

1 250 

155 700 


1 = 

155 700 
1 250 

= 125 




a . 比价 A = (3.95/2. 50) 100 = 158 
B = (9. 90/8. 75)100 = 113 
C = (0. 95/0. 99)100=96 


95(1 200)+75(1 800) +50(2 000)+70(1 500 ) 
120(1 200) + 86(1 800)+35(2 000 ) +60(1 500) 

(100) =99 
数量略有下降 


第18章 




周时间序列值预测预测误差预测〗平方差 
1 8 


商品项目 

比价 

基价 

数量 

重量 PioQi 加权比价 

A 

158 

2.50 

25 

62.5 

9 875 

B 

113 

8.75 

15 

131.3 

14 837 

C 

96 

0.99 

60 

59.4 

5 702 




总计 

253.2 

30 414 


f 一 

30 414 

=120 




1 — 

253.2 




化学品原材料的成本增加20% 

10. a . 1980工资 减缩: 

7 . 兀 ) (100) =8. 82( 美元） 

1996工资 减缩： 

-- 172^ )(100) =8 . 32 (美元） 

b . ■^^■( lOO ) =197.5; 实际工资增加百分 
比是 97. 5% 

c . f ||(100) =94.3； 真实工资的变化是减 
少 5. 7% 

300(18,00) +400(4,90) +850(15.00) 
350(18.00)+220(4. 90) +730(15.00) 

( 100 ) 

20 110/一、… 


总计 7 

第7周的预测是 （17 + 16 + 9)/3 = 14 
b . MSE =75/3=25 


周 

时间序列值 

预测 

预测误差 

预测平方差 

⑺ 

1 

( Y t ) 

Q 

F t 


( Y t - Ft) 1 

1 

2 

O 

13 

8.00 

5.00 

25.00 

3 

15 

9.00 

6.00 

36.00 

4 

17 

10.20 

6.80 

46.24 

5 

16 

11.56 

4.44 

19.71 

6 

9 

12.45 

-3.45 

11.90 

总计 



138. 85 


第7周的预测值是 0. 2(9) + 0. 8(12. 45) 

= 11.76 

d . 对 a = 0.2 指数平滑预测 

MSE = 138 5 8 - = 27.77 

因为3周的滑动平均有较小的 MSE ， 它能 
提供更好的预测 


18 328 


(100) =110 
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e . 


周 

时间序列值 

预测 

预测误差 

预测平方差 

( t ) 


F t 

Y t - F t 

( Y t - F t y 

1 

8 




2 

13 

8.0 

5.0 

25.00 

3 

15 

10.0 

5.0 

25.00 

4 

17 

12.0 

5.0 

25.00 

5 

16 

14,0 

2.0 

4.00 

6 

9 

14.8 

-5.8 

， 33.64 




总计 

112. 64 


MSE = 

112. 64 

= r 

■ = 22. 52 



那么，指数平滑法更适用第 4-12 个月的 
预测 

b . 运用指数， 

Fa = ocY\2 + ( 1 — ol) Fn 

= 0. 20(230) +0. 80(267.53) =260 

12. It = 15, It 2 = 55, 1 y ,=55, 1^ = 186 

h ltY t -( ltlY t )/n 
01 = It 2 -( lt)Vn 

186-(15)(55)/5 汽 
= 55 - （15) 2 /5 _Z ' 1 

fco = y - bit = n -2. 1(3) =4.7 
T t = A . l +2 At 


平滑常数 0.4 能提供更好的预测；用 = 
0.4 得岀第7周的预测值为 0.4(9) + 
0.6(14.8) = 12. 48 


8. a . 


3 个月 





时间 

的滑动 


a = 0. 2 


月份 

序列值 

平均值 

平方差 

预测 

平方差 

1 

240 





2 

350 



240. 00 

12 100.00 

3 

230 



262. 00 

1 024. 00 

4 

260 

273. 33 

177. 69 

255. 60 

19. 36 

5 

280 

280. 00 

0.00 

256. 48 

553. 19 

6 

320 

256. 67 

4 010.69 

261. 18 

3 459. 79 

7 

220 

286. 67 

4 444. 89 

272. 95 

2 803. 70 

8 

310 

273. 33 

1 344. 69 

262. 36 

2 269. 57 

9 

240 

283. 33 

1 877. 49 

271.89 

1 016. 97 

10 

310 

256. 67 

2 844. 09 

265.51 

1 979. 36 

11 

240 

286. 67 

2 178. 09 

274.41 

1 184. 05 

12 

230 

263. 33 

1 110.89 

267. 53 

1 408. 50 

总计 



17 988.52 


27 818. 49 


MSE (3 个月 ） =17 988. 52/9 = 1 998. 72 
MSE(a = 0. 2) =27 818. 49/11 =2 528. 95 
基于下面的 MSE 值，3个月的滑动平均更 
好些； 然而，指数平滑法则要求包含两个 
月的数据，这使任何方法都难以预测。仅 
用第4 一 12月的误差，指数平滑的 MSE 被 
修正为 

MSE(a = 0.2) =14 694. 49/9 = 1 632. 72 


r 6 =4. 7 +2. 1(6) =17.3 

14. = K = 117.1, IiK =403.7 

7 Ut - （ Y,tY,Yi)/n 
° l= lt 2 -(lt) 2 /n 

403.7 -(21)(117. 1)/6 
= 91-(21) 2 /6 =-0.3514 


6 o = T - 6^ = 19.5167-(-0.351 4) (3. 5) 
= 20. 746 6 

厂 = 20. 746 6-0. 351 At 
学生注册人数每年大约减少 351 人 


22. a. 

年份 

1 


2 



季度 

1 

2 

3 

4 
1 
2 

3 

4 
1 
2 

3 

4 


4 个季度 

Y , 滑动平均滑动平均中心值 


4 

2 

3 

5 

6 
3 

5 
7 

7 

6 
6 

8 


3, 50 
4.00 

4. 25 

4. 75 

5. 25 

5. 50 

6. 25 
6. 50 
6. 75 


3. 750 

4. 125 
4.500 
5.000 
5.375 

5. 875 

6. 375 
6. 625 
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b. 





X 

频率 

X 

频率 

年份 

季度 

Y , 

滑动平均中心值 

不规则季节成份 

0 

o. ooi o 

6 

0. 205 1 

1 

1 

4 



1 

0. 009 8 

7 

0. 1172 


2 

2 



2 

0. 043 9 

8 

0. 043 9 


3 

3 

3.750 

0, 800 0 

3 

0. 1172 

9 

0. 009 8 


4 

5 

4. 125 

1.212 1 

4 

0. 205 1 

10 

0. 001 0 

2 

1 

6. 

4. 500 

1.333 3 

5 

0. 246 1 




2 

3 

5. 000 

0. 600 0 






3 

5 

5.375 

0. 930 2 

不拒绝 ft ; 得出未指示出差异存在的结论 


4 

7 

5. 875 

1. 1915 

2.用 n = 27 得出不等于 150 的值； 利用正态分 

3 

1 

7 

6. 375 

1.098 0 

布近似，其中 np = 0.5(27) 

= 13.5 和 cr = 


2 

6 

6. 625 

0. 905 7 

VO. 25 n = 

A 25(27) 

= 2. 6 



4 


用 x =22作为加号的个数并得到如下的检验 
统计： 


季度 

不规则季节成分值 

季节指数 

1 

1.333 3, 1.098 0 

1.215 7 

2 

0. 600 0, 0. 905 7 

0. 752 9 

3 

0. 800 0, 0. 930 2 

0. 865 1 

4 

1,212 1, 1. 191 5 

1.201 8 



总计 4. 035 5 


%- ix 22 ~ 13. 5 
cr 2. 6 


= 3.27 


由于 a = 0.01, 拒绝若 z>2. 33; 因为 z = 
3.27>2.33, 拒绝 ft 并得到中位数大于 150 
4. 我们需要确定“更好”反应的数目和“更差”反 
应的 数目； 两者的和是研究所用的样本规模 
n =0. 34(1 253) +0. 29(1 253) =789.4 


调节季节指数 = - 4 -^- = 0. 9912 

季度 调节季节指数 

1 1.205 0 

2 0. 746 3 

3 0. 857 5 

4 1. 1912 


用大样本正态分布检验；这意味差 n 的值 

U= 789. 4 )。 利用 

/x = 0.5n = 0.5(789.4) = 394. 7 

a = VO. 25 n = VO. 25(789.4) = 14. 05 
令:认为孩子们将会有更好的未来的成年 

人的比例 
Ho- p^O. 50 
//„： p>0. 50 


第19章 


x=0. 34(1 253) =426.0 

%- ix 426. 0 ~ 394. 7 一 , 
a = 14. 05 二 ‘ 


1. n = 10,/? = 0. 50 的二项分布 

P(0) + P(l) =0.0108; 加上 P(2) 后尾数超 
过 0.025; 因此，若“ + ”号的个数小于 2 或大 
于8则拒绝//。 

加号的数目是 7 


由于 a = 0.05, 拒绝若 z>1.645; 因为 z = 
2.23>1.645, 拒绝乐并得出认为孩子们的未 
来会更好的成年人超过半数的结论 
12. H 。: 总体已知 
H a ： 总体未知 
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燃料添加剂 

1 2 

差 

绝对值 

秩 

符号秩 

20. 12 

18.05 

2. 07 

2. 07 

9 

+ 9 

23.56 

21.77 

1.79 

1.79 

7 

+ 7 

22. 03 

22. 57 

-0.54 

0. 54 

3 

-3 

19. 15 

17.06 

2. 09 

2. 09 

10 

+ 10 

21.23 

21.22 

0.01 

0.01 

1 

+ 1 

24.77 

23. 80 

0. 97 

0. 97 

4 

+ 4 

16. 16 

17.20 

-1.04 

1.04 

5 

-5 

18. 55 

14. 98 

3.57 

3.57 

12 

+ 12 

21.87 

20. 03 

1.84 

1. 84 

8 

+ 8 

24. 23 

21. 15 

3.08 

3.08 

11 

+ 11 

23.21 

22.78 

0.43 

0. 43 

2 

+ 2 

25.02 

23. 70 

1.32 

1.32 

6 

+ 6 


T = 62 


/Xr = 0 



双侧 检验； 拒绝执若 z <-1.96 或 z >1.96； 
因为 z = 2.43>1.96, 拒绝执并得岀两种添加 
剂之间有显著差异的结论 


13. 


无放松 

有放松 

差异 

绝对差的秩 

符号秩 

15 

10 

5 

9 

+ 9 

12 

10 

2 

3 

+ 3 

22 

12 

10 

10 

+ 10 

8 

11 

-3 

6.5 

— 6. 5 

10 

9 

1 

1 

+ 1 

7 

5 

2 

3 

+ 3 

8 

10 

-2 

3 

-3 

10 

7 

3 

6.5 

+ 6.5 

14 

11 

3 

6.5 

+ 6.5 

9 

6 

3 

6.5 

+ 6.5 

T = 36 


fJiT = 0 



= 19. 62 

T ~/ It 36 

z= a T = 19.62 =L83 

单侧 检验; 若 z > 1.645 拒绝 z/o 
拒绝 // o 在放松偏好方面有显著差异 
18. 求岀组合样本的秩和每一样本的秩的和；这 


是个小样本检验因为 = 7 和 ri 2 = 9 

添加剂 1 添加剂 2 

MPG 

秩 

MPG 

秩 

17. 3 

2 

18.7 

8.5 

18.4 

6 

17.8 

4 

19. 1 

10 

21.3 

15 

16.7 

1 

21.0 

14 

18.2 

5 

22. 1 

16 

18.6 

7 

18.7 

8.5 

17.5 


19. 8 

11 


34 

20.7 

13 



20.2 

12 




102 


r = 34 

由于 a = 0. 05, =7,和 ri 2=9 y 

7 Y =41 和 ru =7(7 +9 + 1) -41 =78 
因为 T = 34<41, 拒绝//。,并得出在汽油里程 
方面有显著差异的结论 
19. a . 注册会计师 秩财务分析师 秩 


25. 2 

5 

24.0 

2 

33. 8 

19 

24.2 

3 

31. 3 

16 

28. 1 

10 

33.2 

18 

30.9 

15 

29.2 

13 

26.9 

8. 

30.0 

14 

28. 6 

11 

25.9 

6 

24.7 

4 

34.5 

20 

28. 9 

12 

31.7 

17 

26. 8 

7 

26.9 

8.5 

23.9 

」 


136.5 


73.5 
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Tl[ + T12+1) ="^~(10) (10 + 10+1) 

= 105 


12 [ 41 2 61 2 

= 15(15+7) 5 

-3(15 + 1) 



18 2 1 


CTt — 



nxniinx + 叱 + 1 ) 


= ^-^-( 10 )( 10)(10 + 10 + 1 ) 

= 13. 23 
r =136.5 

拒绝 ft ) 若 z < - 1. 645或若 z > l . 645 


= 9. 26 

X 2 o. 05 =5.991 47( 自由度 2) 

因为9.26>5.991 47,拒绝 ft ，并且得出活动 
不同的结论 
32. a . Uf = 52 

_6H _6(52l_ Q 68 

rs — 1 一 n ( n 2 - 1) 一 1_ 10(99) -0 * 68 


136. 5 - 105 
~~13.23~~ 


= 2.38 


拒绝 ft ; 这两个职业薪水明显不同 
b . 注册会计师 32 300美元 


财务分析师 26 700美元 


26. 次序： 

商品 A 商品 B 

商品 C 

4 

11 

7 

8 

14 

2 

10 

15 

1 

3 

12 

6 

_9 

13 

_5 

34 

65 

21 

江， 12 

(34) 2 

. (65) 2 . (21) 

W ~ (15)(16) 

5 

+ 5+5 

3(15 + 1) 

= 58.22 

-48 = 10. 22 




r , _ 0 _ 

crr s — 


9 

0.68 
0. 33 


0. 33 


2. 06 


拒绝 Ho 若 2<-1.96或 z >1.96； 因为 z = 
2.06>1.96,拒绝//。，并得出存在秩显著相 
关的结论 
34. 1^ = 250 

! 6 ldf , 6(250) n 1ir 

r5 = 1 _n(n 2 _l) =1 一 11(120) = 一 0 . 136 




0. 136 
0. 32 


= 0. 32 

= 一 O . 425 


拒绝好。若 z <-1.96 或^ >1.96; 因为- 
0.425,不拒绝 i /。; 我们不能得岀次序之间显 
著相关的结论 


X 2 o.o5=5. 991 47( 自由度 2) 


拒绝讯并得出产品比例不等的结论 

28. 次序： 

第 20 章 

游泳 

网球 

自行车 

4. 控 制图： 

8 

9 

5 

UCL = ^ D 4 = 1.6(1. 864) =2. 98 

4 

14 

1 

LCL = ^ Z ) 3 = 1.6(0. 136) =0. 22 

11 

13 

3 

元控 制图: 

6 

10 

7 

UCL = 3+ A 2 云 = 28. 5+0_ 373(1. 6) = 29. 10 

12 

15 

2 

41 

61 

18 

LCL = 5 — A 云 = 28. 5 — 0. 373( 1. 6) 二 27. 90 
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10 * /( 0 )= ^!U-^ (1 ^ )W_X 

当 p =0. 02时，接受多数的概率是 

2 S ! 

A 0 )= 0l( 25 - 0 )\ {0 ' 02 )° ( 1 — 0. 02 ) 25 
= 0. 603 5 

当 ；>=(). 06时，接受多数的概率是 

9 S I 

/(0) = Q j (25 - oTr (a 06)°(1 -0. 06) 25 

= 0.212 9 


第21章 


1. a . 5=215是总体均值的估计值 

b . s~ x = 

c . 215 ±2(2. 738 6) 或 209. 522 8—220. 477 2 
5. a . 无= 149 670和5 = 73 420 


20 800-50 


画 


800 




2. 738 6 


近似95%的置信区间 
149 760 ±2(10 040. 83)，或 

129 588. 34美兀一169 751. 66美元 

b : X = N- x = 111(149 670) = 115 395 570 
s , = Ns- x = TU(lQ 040. 83) =7741 479. 93 

近似95%的置信区间 
115 395 570 ±2(7 741 479. 93) ，或 
99 912 810. 14美元 一130 878 729. 86美元 
c，p = 18 /50 = 0. 36和 


Sp = 


1(111 ~50\ (0. 36)(0. 64) 
VI 771 ) 49 


= 0. 066 3 


近似95%的置信区间 
0. 36 ±2(0. 066 3)，或 
0. 227 4—0. 492 6 

这一区间相 当大; 样本容量也必须大，以便 
得出关于总体比例较窄的置信区间 
7. a . 第 1 层 ： L = 138 


第2层:而= 103 
第3层:$ 3 =210 
b . 第1层 

A = 138;«‘ = (-^-) V 2 °200 ?P = 6 . 昶4 0 

近似95%的置信区间 
138 ±2(6. 364 0) ，或 125. 272—150. 728 
第2层 

X2 = 103； Sk — 

近似95%的置信区间 

103 ±2(4, 281 7) ,或 94. 436 6—111.5634 

第3层 

=210; 5 i 3 = (-^^) = 8. 660 3 

近似95%的置信区间 

210 ±2(8. 6603) ,或 192. 6794—227. 3206 

c - = ( 55o) 138 + (55o) 103 + (55o) 210 

= 50. 181 8+46. 818 2 + 38. 181 8 
= 135. 181 8 



250 — 30 


250 


= 4. 281 7 


V (7^0 ( 200( 180)-^ + 250( 220 )^- + 100(75)-^0 


— V( (550) 2 )3 515 833.3 = 3. 4092 


近似95%的置信区间 

135. 1818 ±2(3. 4092), 或 128. 3634—142. 0002 


14. a . x c 


Ixi 750 
一 iMi ~ 50 



X = Mx c = 300( l 5) =4 500 
_ Zai 15 


Pc "TM^ = 50 


= 0. 30 


b . Z (^ - x c Mi) 2 =[95 - 15(7) ] 2 + [325 - 15 
(18)] 2 + [190-15(15) ] 2 + [140- 15(10) ] 2 
=(-10) 2 + (55) 2 +( -35) 2 + ( - 10) 2 
= 4 450 
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V((25y(4~Kl2)?I 


4 450 




L 470 8 


s k = A / 奴 = 300(1. 470 8) =441.24 
Kai - pMy ^ H -0.3(7)] 2 + [6-0. 3(18)] 2 
+ [6-0.3(15)] 2 + [2-0.3(10)] 2 
= (- l . l ) 2 + (0.6) 2 + (1.5) 2 + (- l ) 2 
= 4.82 

v HU ^I 1 )^ 0 . 0484 


c . 总体均值近似95%的置信区间 

15 ±2(1. 470 8)，或 12. 058 4—17. 941 6 

d . 总体均值近似95%的置信区间 

4 500 ± 2(441. 24) ，或3 617. 52—5 382. 48 

e . 总体比例近似95%的置信区间 

0. 30 ± 2(0. 048 4) ,或 0. 203 2—0. 396 8 




译后记 


由中信出版社推出的这本译作《商务与经济统计》，可谓恰逢其时和恰到好 
处。 

在经济全球化进程加速、我国加入 WTO 的大背景下，各项商务和经贸活动 
都在尽快地与国际全面、深度接轨，在实践层面有许多繁杂琐碎的事情要做，因 
而需要更加具体和详细地了解世界上经贸实务的操作程序及规范等事项。该译作 
的出版，在一定程度上满足了商务统计教学和实际工作人员对这方面的迫切需 
求，此乃恰逢其时。 

说它恰到好处，是因为我国原来实务方面的教材就比较少，本书的翻译出 
版，正好起弥补的作用。本书原著有一些显著 特色： 定位鲜明准确、内容精选得 
当； 编写体例系统规范、通俗易懂、教学方便、突出 实用； 案例选择颇具代表 
性、生动 鲜活； 国际流行风格，注重习题训练，并附有以两种格式录制的数据光 
盘。本书中统计术语的翻译，以现行大学教材中的用法为基本依据，而一些不常 
见的地名、公司名称等专用词汇则是直接引用原文。译者分 工为： 王国成全面组 
织协调，负责全书的统一校译和最终定稿工作，并承担第1章、附录等零散辅助 
内容的 翻译； 王峰翻译第 2— 8章，并承担了许多繁杂的事务性 工作； 袁晓东翻 
译第9一14 章； 卿前锋翻译第15—21 章； 虽然我们力图保持原著生动活泼、文 
笔流畅的原有风格，但由于该书取材极其广泛，翻译工作量大，时间相对紧迫， 
译本难免存在一些不足之处，欢迎批评指正。 

在本书翻译过程中，郭金龙博士提供了一些有益建议，李玉丰硕士和王秀玲 
女士在联系沟通、文稿打印整理等方面给予了大量帮助，在此一并对他们表示衷 
心的感谢。 




